Nutch:如何立即重新抓取特定页面?

时间:2019-08-16 08:33:26

标签: nutch

假设几天前,我抓取了整个网站(即完成了注入,生成,获取,解析,updatedb,invertlinks,索引,dedup,clean等)。 db.fetch.interval.default2592000(30天)。今天,重要的页面已更改,我想立即重新抓取该页面(仅抓取该页面,而不抓取其他页面)。我怎样才能做到这一点?运行bin/crawl不会再次获取该页面,因为还没有30天。

是否可以将已更改的特定页面通知Nutch,以使Nucth抓取这些特定页面?即Nutch是否有类似Webhook的东西,可以通知它立即重新抓取的页面?

(版本:处于分布式(“部署”)模式的Apache Nutch 1.15)

0 个答案:

没有答案
相关问题