我需要为很多网页编制索引,那里有哪些好的webcrawler实用程序?我最好选择.NET可以与之交谈的东西,但这不是一个显示器。
我真正需要的是我可以提供网站网址的内容。它将跟随每个链接并存储内容以进行索引。
答案 0 :(得分:12)
HTTrack - http://www.httrack.com/ - 是一款非常好的网站复印机。工作得很好。已经使用了很长时间。
Nutch是一个网络抓取工具(抓取工具是您正在寻找的程序类型) - http://lucene.apache.org/nutch/ - 它使用顶级搜索工具lucene。
答案 1 :(得分:4)
Crawler4j是一个开源Java爬虫,它提供了一个用于爬网的简单界面。您可以在5分钟内设置多线程Web爬网程序。
您可以设置自己的过滤器来访问或不访问页面(URL),并根据您的逻辑为每个已爬网页面定义一些操作。
选择crawler4j的一些原因;
答案 2 :(得分:2)
Searcharoo.NET包含一个抓取并索引内容的蜘蛛,以及一个使用它的搜索引擎。您应该能够找到绕过Searcharoo.Indexer.EXE代码的方法来捕获下载的内容,并从那里添加您自己的自定义代码......
这是非常基本的(所有源代码都包含在内,并在六篇CodeProject文章中进行了解释,其中最新的一篇是Searcharoo v6):蜘蛛遵循链接,图像映射,图像,服从ROBOTS指令,解析一些非HTML文件类型。它适用于单个网站(不是整个网站)。
Nutch / Lucene几乎肯定是一个更强大/商业级的解决方案 - 但我没有看过他们的代码。不确定你想要完成什么,但是你还看过Microsoft Search Server Express吗?
免责声明:我是Searcharoo的作者;只是在这里提供它。
答案 3 :(得分:1)
Sphider非常好。它是PHP,但它可能会有所帮助。
答案 4 :(得分:1)
我使用Mozenda's Web Scraping software。您可以轻松地抓取所有链接并获取所需的所有信息,这非常棒 钱的软件。
答案 5 :(得分:0)
我还没有用过,但this看起来很有趣。作者从头开始编写并发布了他的做法。它的代码也可以下载。