web-crawler - nutch配置在不指定深度的情况下抓取整个网站

时间：2016-01-25 12:43:28

标签： web-crawler nutch

我正在使用Nutch-1.8来抓取网站和solr进行索引。我需要抓取整个网站直到最后一个子链接而不指定深度参数（-depth）

这是我用来抓取和索引网址的命令

命令： bin / crawl seeds brainiademo http://localhost:8983/solr/ 10

语法：COPY countries FROM 'C:\Program Files\PostgreSQL\9.5\data\countries-20140629.csv' DELIMITERS ',' CSV HEADER

在上面的命令中我不想指定深度参数，即10。

为了在不指定深度参数的情况下抓取整个网站，需要进行哪些配置更改？

答案 0 :(得分：3)

自Nutch 1.11起，您可以将值设置为-1。见crawl script

答案 1 :(得分：0)

我认为你不能那样做。但是，解决方法是将nutch配置为仅抓取来自同一域的链接，然后将爬行深度设置为非常大的数量（比如100万）。当有链接爬行时，Nutch会继续爬行。一旦没有要抓取的网址，无论深度限制如何都会停止。