我正在使用Nutch-1.8来抓取网站和solr进行索引。我需要抓取整个网站直到最后一个子链接而不指定深度参数(-depth)
这是我用来抓取和索引网址的命令
命令: bin / crawl seeds brainiademo http://localhost:8983/solr/ 10
语法:COPY countries FROM 'C:\Program Files\PostgreSQL\9.5\data\countries-20140629.csv'
DELIMITERS ',' CSV HEADER
在上面的命令中我不想指定深度参数,即10。
为了在不指定深度参数的情况下抓取整个网站,需要进行哪些配置更改?
答案 0 :(得分:3)
自Nutch 1.11起,您可以将值设置为-1。见crawl script
答案 1 :(得分:0)
我认为你不能那样做。但是,解决方法是将nutch配置为仅抓取来自同一域的链接,然后将爬行深度设置为非常大的数量(比如100万)。当有链接爬行时,Nutch会继续爬行。一旦没有要抓取的网址,无论深度限制如何都会停止。