如何配置nutch以仅对网站中的更新页面进行爬网

时间:2018-12-04 08:03:32

标签: nutch

例如,如果我的网站总共包含10个URL,则在我的第一次爬网中,我将爬网所有的URL,而在第二次爬网时,它应仅爬网具有更改的url /页面,而不会对其他页面进行爬网。使用站点地图来确定已更改的页面并对其进行爬网。

0 个答案:

没有答案
相关问题