nutch配置在不指定深度的情况下抓取整个网站

时间:2016-01-25 12:43:28

标签: web-crawler nutch

我正在使用Nutch-1.8来抓取网站和solr进行索引。我需要抓取整个网站直到最后一个子链接而不指定深度参数(-depth)

这是我用来抓取和索引网址的命令

命令: bin / crawl seeds brainiademo http://localhost:8983/solr/ 10

语法COPY countries FROM 'C:\Program Files\PostgreSQL\9.5\data\countries-20140629.csv' DELIMITERS ',' CSV HEADER

在上面的命令中我不想指定深度参数,即10。

为了在不指定深度参数的情况下抓取整个网站,需要进行哪些配置更改?

2 个答案:

答案 0 :(得分:3)

自Nutch 1.11起,您可以将值设置为-1。见crawl script

答案 1 :(得分:0)

我认为你不能那样做。但是,解决方法是将nutch配置为仅抓取来自同一域的链接,然后将爬行深度设置为非常大的数量(比如100万)。当有链接爬行时,Nutch会继续爬行。一旦没有要抓取的网址,无论深度限制如何都会停止。