javascript - 网站覆盖率最佳开源蜘蛛

时间：2010-01-13 07:19:56

标签： javascript web-crawler

我有兴趣抓取很多网站。最重要的考虑因素是蜘蛛能够尽可能多地到达现场。大多数蜘蛛缺少的一个关键特性是执行JavaScript的能力。这是爬网ajax驱动的站点所必需的。我非常喜欢Open Source，我需要修改项目的代码。

目前我认为Solr是Lucine的一个非常好的解决方案。 http://lucene.apache.org/solr/features.html

有没有人使用过Solr或Lucine？我对Solr的最大问题是无法执行javascript，但它具有丰富的功能集和可扩展性，这两者都使得Solr具有吸引力。

答案 0 :(得分：4)

Solr不是抓取工具，而是搜索引擎（搜索索引以返回结果）。

那就是说，我非常喜欢heritrix的灵活性。大多数抓取工具都不会执行Javascript（但有些人会像Heritrix一样尝试从中提取链接），因为即使在今天也没有多大意义。问题是，Heritrix将允许您插入自己的类，以便使用已爬网数据执行任何操作。

答案 1 :(得分：2)

答案 2 :(得分：2)

Solr是一个建立在Lucene之上的搜索引擎。它没有做任何爬行。看看Apache Nutch。破解javascript可能是一个问题，因为他们经常打算将爬虫带到死胡同。

答案 3 :(得分：1)

watir可能对您有用。

答案 4 :(得分：0)

根据javascript模板创建dom的页面，你真的希望在你的蜘蛛中执行完整的javascript。查看Node {的https://github.com/mikeal/spider。