web-crawler - 什么是一个很好的Web爬虫工具

时间：2008-10-07 00:37:54

标签： web-crawler robot

我需要为很多网页编制索引，那里有哪些好的webcrawler实用程序？我最好选择.NET可以与之交谈的东西，但这不是一个显示器。

我真正需要的是我可以提供网站网址的内容。它将跟随每个链接并存储内容以进行索引。

答案 0 :(得分：12)

HTTrack - http://www.httrack.com/ - 是一款非常好的网站复印机。工作得很好。已经使用了很长时间。

Nutch是一个网络抓取工具（抓取工具是您正在寻找的程序类型） - http://lucene.apache.org/nutch/ - 它使用顶级搜索工具lucene。

答案 1 :(得分：4)

Crawler4j是一个开源Java爬虫，它提供了一个用于爬网的简单界面。您可以在5分钟内设置多线程Web爬网程序。

您可以设置自己的过滤器来访问或不访问页面（URL），并根据您的逻辑为每个已爬网页面定义一些操作。

选择crawler4j的一些原因;

答案 2 :(得分：2)

Searcharoo.NET包含一个抓取并索引内容的蜘蛛，以及一个使用它的搜索引擎。您应该能够找到绕过Searcharoo.Indexer.EXE代码的方法来捕获下载的内容，并从那里添加您自己的自定义代码......

这是非常基本的（所有源代码都包含在内，并在六篇CodeProject文章中进行了解释，其中最新的一篇是Searcharoo v6）：蜘蛛遵循链接，图像映射，图像，服从ROBOTS指令，解析一些非HTML文件类型。它适用于单个网站（不是整个网站）。

Nutch / Lucene几乎肯定是一个更强大/商业级的解决方案 - 但我没有看过他们的代码。不确定你想要完成什么，但是你还看过Microsoft Search Server Express吗？

免责声明：我是Searcharoo的作者;只是在这里提供它。

答案 3 :(得分：1)

Sphider非常好。它是PHP，但它可能会有所帮助。

答案 4 :(得分：1)

我使用Mozenda's Web Scraping software。您可以轻松地抓取所有链接并获取所需的所有信息，这非常棒钱的软件。

答案 5 :(得分：0)

我还没有用过，但this看起来很有趣。作者从头开始编写并发布了他的做法。它的代码也可以下载。