Question

我正在尝试开发我的编码技能，我试图设计一种用于查看谷歌搜索的自定义客户端。

我不想使用谷歌API，主要是因为我觉得这会削减很多有趣的节目。

我尝试下载网页，目的是解析HTML。但是，当我下载搜索页面时，我无法在原始页面上看到的URL中找到任何有用的数据。

以下是搜索单词＆＃34; file＆＃34;。

的示例

http://pastebin.com/xjF2WRRj

有没有人知道下载网页的正确方法？

提前致谢

Answer 1

以下是如何获取HTML：

Dim WebRequest As HttpWebRequest = TryCast(HttpWebRequest.Create(SearchString), HttpWebRequest)

Dim WR As HttpWebResponse = TryCast(WebRequest.GetResponse(), HttpWebResponse)

Dim receiveStream As Stream = WR.GetResponseStream()

Dim readStream As New StreamReader(receiveStream, Encoding.UTF8)

Dim Page As [String] = readStream.ReadToEnd()

我会使用HtmlAgility Pack来解析它。

Answer 2

您尝试执行的操作称为 web scraping ，或者尝试通过假装您通过浏览器加载页面来提取网站中的内容，然后访问加载的内容通过查看和挑选页面代码的点点滴滴来查看内容。这有时可以很好地工作（整个企业都致力于网络抓取！）而其他时候并没有那么多 - 这就是其中之一。

由于您实际上是直接翻录页面代码而不是通过真实浏览器查看，因此没有下载动态内容的JavaScript正在执行，因此，您没有任何内容正在寻找正确的装载。您已经（大部分）从页面本身下载了JavaScript，该页面负责加载内容，但它没有被执行。

相反，请尝试下载已经由Google处理的搜索结果的页面（而不是动态加载的结果），例如搜索＆＃34; test＆＃34;在谷歌上。请注意该搜索与this one之间的网址差异，后者会加载＆＃34; test＆＃34;动态。

如何获取谷歌搜索页面的HTML源代码？

2 个答案: