nutch crawl不使用seed.txt中的所有条目

时间:2014-06-06 14:39:11

标签: nutch web-crawler

我正在使用apache-nutch-1.6,我可以成功抓取网站。 我的问题是并非使用了seed.txt文件中的所有条目。这取决于里面的网站。那么有没有限制爬行多少?没有错误消息。如果我删除了一个网站,其他网站就会被深深地抓取,无论其他网站是否存在,这个网站都会被抓取,而其他网站只会抓住我认为最重要的网站....

1 个答案:

答案 0 :(得分:0)

正确配置:

bin/nutch crawl $URLS -dir $CRAWL_LOC -depth 10 -topN 1000

深度:nutch将深入爬到这个水平

topN:在每个级别中,nutch将抓取此数量的网址