web-crawler - 可以部署Nutch来抓取特定页面

可以部署Nutch来抓取特定页面

时间：2016-04-05 11:43:34

标签： web-crawler nutch

Nutch可以用来：

创建一个Web服务，我可以给出一个url列表（这些可能是成千上万的批量） - 这可能是一个命令行的简单包装
反复检查作业是否完成 - 这可能是命令行的简单包装
作为回报：获取一个包含转储的html页面的数据集 - 这可能是一个围绕命令行的简单包装

2 个答案:

答案 0 :(得分：2)

此处需要注意的另一件事是，您还可以查看此Qurora post，其中我将介绍如何在Nutch中启用重点抓取。

不确定为什么我的第一个回答没有发布，但我想解决   这个。 Nutch不必是批处理模式。 bin / crawl脚本是   但是，您可以调用Nutch的所有临时步骤   （逐步注入，生成，获取，解析，重复数据删除，更新等）   和Nutch已经有一段时间了。

此外，Nutch已经有很长一段时间的得分插件了   支持自适应提取计划和所有Nutch   数据在数据库等等，通过   命令行工具，Java，现在有一个新兴的REST接口   并且还为此创建了一个Python客户端。

我在NASA JPL的团队正致力于通过DARPA改进Nutch   Memex项目。 Nutch使用Tika来处理1200+和不断增长的文件   格式（检测，解析，实体提取等）我们也有   Naive Bayes的新插件集中了爬行，Cosine Similarity   得分和其他能力真正使Nutch既广泛又有   专注的爬虫。 Naive Bayes直接将Mahout融入其中   Nutch的。它们存在于1.11-trunk中。

此外，Nutch还集成了Selenium for Deep Web / Ajax / Javascript   爬行，并且已经有很多改进   出现在Nutch，使其成为一个不错的选择。

HTH！

答案 1 :(得分：1)

是的，你可以使用Apache Nutch来做到这一点。

查看Nutch REST API [0]（主动开发），它可以让您启动Nutch作为服务，通过HTTP调用提供URL，监视作业的完成情况，然后将数据转储回来。

[0] - https://wiki.apache.org/nutch/Nutch_1.X_RESTAPI