Nutch Fetcher:获取持久性的网址数量

时间:2011-06-29 09:21:38

标签: nutch

我想知道一个属性,它表示每秒要获取多少网址。我从网上看到它实际上是地图任务数*线程数。但在我的情况下,当我验证它们时,数字不匹配。因此,是否有任何属性来指定每秒要获取的URL数量?

的问候,

V.Sriram

1 个答案:

答案 0 :(得分:2)

我自己想出了这个问题。实际提取速率取决于在整个提取器时间限制和每个主机属性的线程中运行的映射任务的数量。此外,提取器线程的数量也起到了作用。

例如,如果地图任务的总数为8且输入网址中的域数为3,则只有3个地图进程将在该获取周期中运行。如果每个映射进程都有足够的url来自同一个域,那么它将为fetcher.timelimit.mins运行,那么系统的总获取速率将是这些单独映射任务的获取速率的总和。

相关问题