使用nutch crawl,如果我为-topN和-depth使用较小的值,它是否仍会抓取所有相同的页面?

时间:2016-10-11 12:24:50

标签: nutch

我正在运行Nutch 1.4 / Solr 4.10来索引一些网站。我的抓取包括一些包含数百个链接的种子页面。我目前正在使用

-topN 400 -depth 20

使用这些设置完成爬网需要5-7个小时。我希望每次单独迭代" nutch crawl"花费更少的时间,但我需要确保最终抓取所有页面。 我可以减少我的-topN或-depth值,并且仍然可以确保所有页面都会被抓取吗?

1 个答案:

答案 0 :(得分:0)

改变深度(实际上应该有一个不同的名称,它的迭代次数通常与深度相同但不一定)不会产生很大的差异,因为爬行会停止迭代很快就没有要获取的网址了。 topN限制了每个网段的网址总数:如果您设置较低的值,则会进行更多迭代,但总体而言,它不会影响您的抓取时间。

影响爬行速度的因素很多see WIKI,但这只是主持人多元化和礼貌的问题。我建议您以伪分布式模式运行Nutch,并使用Hadoop UI了解哪些步骤需要时间并从那里开始。

PS:那是Nutch的一个非常古老的版本。也许是时候升级到更近的了?