Question

我正在使用nutch 2.3.1

我预先编写了抓取网站的命令：

问题是，nutch只抓取第一个URL（seeds.txt中指定的URL）。数据只是第一个URL /页面中的HTML。

生成命令累积的所有其他URL实际上都没有被抓取。

我无法抓住其他生成的网址...我也无法抓住整个网站。 我需要使用哪些选项来抓取整个网站？

有没有人有任何见解或建议？

非常感谢你的帮助

Answer 1

如果Nutch只抓取一个指定的网址，请检查Nutch过滤器（conf / regex-urlfilter.txt）。要抓取种子中的所有网址，regex-urlfilter.txt的内容应如下所示。

# accept all URLs
+.

希望这有帮助，

Le Quoc Do