写我的第一个webcrawler

时间:2010-11-10 20:58:09

标签: c# web-crawler

我试图找到一个好的方法,或者在编写第一个网络爬虫时对初学者有益的一些例子。我想用c#编写。有没有人有任何好的示例代码可以分享或在某些我可以找到c#信息的网站上的一些提示,以及一些bacic网页浏览。

由于

3 个答案:

答案 0 :(得分:4)

HtmlAgilityPack是你的朋友。

答案 1 :(得分:3)

是的,HtmlAgeilityPack是解析HTML的好工具,但这绝对不够。

要抓取3个要素:

1)抓取自己,即通过网站循环:这可以通过向随机IP地址发送请求来完成,但这不能很好地工作,因为许多网站使用共享IP地址HTTP和主机头,所以使用IP没有击中它。另一方面,有太多的IP地址未使用或没有托管Web服务器,所以这不会让你到任何地方。

我建议您向Google发送请求(从字典中搜索字词)并抓取返回的结果。

2)渲染内容:许多网站在加载表单时使用JavaScript生成HTML内容,因此如果您发送简单请求,它将无法像用户那样捕获内容能够看到。您需要像浏览器一样呈现页面,并且可以使用Webkit.net来完成,这是一个开源工具,但仍处于测试阶段。

3)理解和解析HTML:使用HTML包,在线有大量示例。这也可用于抓取网站。

答案 2 :(得分:2)

前段时间我还想写一个自定义网页抓取工具,并找到了这个文档:

Web Crawler

它有一些很好的信息,并且写得很好IMO。