Nutch没有抓取整个网站

时间:2016-03-01 04:51:27

标签: apache web-crawler nutch

我正在使用nutch 2.3.1

我预先编写了抓取网站的命令:

  • ./ nutch inject ../ urls / seed.txt
  • ./ nutch generate -t​​opN 2500
  • ./ nutch fetch -all

问题是,nutch只抓取第一个URL(seeds.txt中指定的URL)。数据只是第一个URL /页面中的HTML。

生成命令累积的所有其他URL实际上都没有被抓取。

我无法抓住其他生成的网址...我也无法抓住整个网站。 我需要使用哪些选项来抓取整个网站?

有没有人有任何见解或建议?

非常感谢你的帮助

1 个答案:

答案 0 :(得分:1)

如果Nutch只抓取一个指定的网址,请检查Nutch过滤器(conf / regex-urlfilter.txt)。要抓取种子中的所有网址,regex-urlfilter.txt的内容应如下所示。

# accept all URLs
+.

请在此处查看详细信息:http://wiki.apache.org/nutch/NutchTutorial

希望这有帮助,

Le Quoc Do

相关问题