什么是一个很好的Web爬虫工具

时间:2008-10-07 00:37:54

标签: web-crawler robot

我需要为很多网页编制索引,那里有哪些好的webcrawler实用程序?我最好选择.NET可以与之交谈的东西,但这不是一个显示器。

我真正需要的是我可以提供网站网址的内容。它将跟随每个链接并存储内容以进行索引。

6 个答案:

答案 0 :(得分:12)

HTTrack - http://www.httrack.com/ - 是一款非常好的网站复印机。工作得很好。已经使用了很长时间。

Nutch是一个网络抓取工具(抓取工具是您正在寻找的程序类型) - http://lucene.apache.org/nutch/ - 它使用顶级搜索工具lucene。

答案 1 :(得分:4)

Crawler4j是一个开源Java爬虫,它提供了一个用于爬网的简单界面。您可以在5分钟内设置多线程Web爬网程序。

您可以设置自己的过滤器来访问或不访问页面(URL),并根据您的逻辑为每个已爬网页面定义一些操作。

选择crawler4j的一些原因;

  1. 多线程结构,
  2. 您可以设置要抓取的深度,
  3. 它是基于Java的开源,
  4. 控制冗余链接(网址),
  5. 您可以设置要抓取的网页数
  6. 您可以设置要抓取的页面大小
  7. 足够的文档

答案 2 :(得分:2)

Searcharoo.NET包含一个抓取并索引内容的蜘蛛,以及一个使用它的搜索引擎。您应该能够找到绕过Searcharoo.Indexer.EXE代码的方法来捕获下载的内容,并从那里添加您自己的自定义代码......

这是非常基本的(所有源代码都包含在内,并在六篇CodeProject文章中进行了解释,其中最新的一篇是Searcharoo v6):蜘蛛遵循链接,图像映射,图像,服从ROBOTS指令,解析一些非HTML文件类型。它适用于单个网站(不是整个网站)。

Nutch / Lucene几乎肯定是一个更强大/商业级的解决方案 - 但我没有看过他们的代码。不确定你想要完成什么,但是你还看过Microsoft Search Server Express吗?

免责声明:我是Searcharoo的作者;只是在这里提供它。

答案 3 :(得分:1)

Sphider非常好。它是PHP,但它可能会有所帮助。

答案 4 :(得分:1)

我使用Mozenda's Web Scraping software。您可以轻松地抓取所有链接并获取所需的所有信息,这非常棒 钱的软件。

答案 5 :(得分:0)

我还没有用过,但this看起来很有趣。作者从头开始编写并发布了他的做法。它的代码也可以下载。