网站覆盖率最佳开源蜘蛛

时间:2010-01-13 07:19:56

标签: javascript web-crawler

我有兴趣抓取很多网站。最重要的考虑因素是蜘蛛能够尽可能多地到达现场。大多数蜘蛛缺少的一个关键特性是执行JavaScript的能力。这是爬网ajax驱动的站点所必需的。我非常喜欢Open Source,我需要修改项目的代码。

目前我认为Solr是Lucine的一个非常好的解决方案。 http://lucene.apache.org/solr/features.html

有没有人使用过Solr或Lucine?我对Solr的最大问题是无法执行javascript,但它具有丰富的功能集和可扩展性,这两者都使得Solr具有吸引力。

5 个答案:

答案 0 :(得分:4)

Solr不是抓取工具,而是搜索引擎(搜索索引以返回结果)。

那就是说,我非常喜欢heritrix的灵活性。大多数抓取工具都不会执行Javascript(但有些人会像Heritrix一样尝试从中提取链接),因为即使在今天也没有多大意义。问题是,Heritrix将允许您插入自己的类,以便使用已爬网数据执行任何操作。

答案 1 :(得分:2)

答案 2 :(得分:2)

Solr是一个建立在Lucene之上的搜索引擎。它没有做任何爬行。看看Apache Nutch。破解javascript可能是一个问题,因为他们经常打算将爬虫带到死胡同。

答案 3 :(得分:1)

watir可能对您有用。

答案 4 :(得分:0)

根据javascript模板创建dom的页面,你真的希望在你的蜘蛛中执行完整的javascript。查看Node {的https://github.com/mikeal/spider

相关问题