我正在使用nutch 2.3.1
我预先编写了抓取网站的命令:
问题是,nutch只抓取第一个URL(seeds.txt中指定的URL)。数据只是第一个URL /页面中的HTML。
生成命令累积的所有其他URL实际上都没有被抓取。
我无法抓住其他生成的网址...我也无法抓住整个网站。 我需要使用哪些选项来抓取整个网站?
有没有人有任何见解或建议?
非常感谢你的帮助
答案 0 :(得分:1)
如果Nutch只抓取一个指定的网址,请检查Nutch过滤器(conf / regex-urlfilter.txt)。要抓取种子中的所有网址,regex-urlfilter.txt的内容应如下所示。
# accept all URLs
+.
请在此处查看详细信息:http://wiki.apache.org/nutch/NutchTutorial
希望这有帮助,
Le Quoc Do