可以部署Nutch来抓取特定页面

时间:2016-04-05 11:43:34

标签: web-crawler nutch

Nutch可以用来:

  1. 创建一个Web服务,我可以给出一个url列表(这些可能是成千上万的批量) - 这可能是一个命令行的简单包装
  2. 反复检查作业是否完成 - 这可能是命令行的简单包装
  3. 作为回报:获取一个包含转储的html页面的数据集 - 这可能是一个围绕命令行的简单包装

2 个答案:

答案 0 :(得分:2)

此处需要注意的另一件事是,您还可以查看此Qurora post,其中我将介绍如何在Nutch中启用重点抓取。

  

不确定为什么我的第一个回答没有发布,但我想解决   这个。 Nutch不必是批处理模式。 bin / crawl脚本是   但是,您可以调用Nutch的所有临时步骤   (逐步注入,生成,获取,解析,重复数据删除,更新等)   和Nutch已经有一段时间了。

     

此外,Nutch已经有很长一段时间的得分插件了   支持自适应提取计划和所有Nutch   数据在数据库等等,通过   命令行工具,Java,现在有一个新兴的REST接口   并且还为此创建了一个Python客户端。

     

我在NASA JPL的团队正致力于通过DARPA改进Nutch   Memex项目。 Nutch使用Tika来处理1200+和不断增长的文件   格式(检测,解析,实体提取等)我们也有   Naive Bayes的新插件集中了爬行,Cosine Similarity   得分和其他能力真正使Nutch既广泛又有   专注的爬虫。 Naive Bayes直接将Mahout融入其中   Nutch的。它们存在于1.11-trunk中。

     

此外,Nutch还集成了Selenium for Deep Web / Ajax / Javascript   爬行,并且已经有很多改进   出现在Nutch,使其成为一个不错的选择。

     

HTH!

答案 1 :(得分:1)

是的,你可以使用Apache Nutch来做到这一点。

查看Nutch REST API [0](主动开发),它可以让您启动Nutch作为服务,通过HTTP调用提供URL,监视作业的完成情况,然后将数据转储回来。

[0] - https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI