Question

我正在使用apache-nutch-1.6，我可以成功抓取网站。我的问题是并非使用了seed.txt文件中的所有条目。这取决于里面的网站。那么有没有限制爬行多少？没有错误消息。如果我删除了一个网站，其他网站就会被深深地抓取，无论其他网站是否存在，这个网站都会被抓取，而其他网站只会抓住我认为最重要的网站....

Answer 1

正确配置：

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

深度：nutch将深入爬到这个水平

topN：在每个级别中，nutch将抓取此数量的网址

nutch crawl不使用seed.txt中的所有条目

1 个答案: