Nutch未能抓住特定网站

时间:2012-03-26 04:24:32

标签: web-crawler nutch

我正在使用nutch 1.4来抓取网站。出于演示目的,我开始使用jabong.com抓取,但我发现nutch无法获取网站中的所有链接。

访问http://www.jabong.com/women/clothing/womens-suits-sets/后 它不会获取此站点中存在的映射到映像的链接。

我已将nutch配置为: - conf / nuth-default.xml --->添加了代理名称 conf / regex-urlfilter.txt --->而不是+。 ,我写了+ ^ http://([a-z0-9] *。)* jabong.com / seed.txt包含http://www.jabong.com/

有人可以告诉我可能是什么问题它没有取出所有链接?

1 个答案:

答案 0 :(得分:2)

最后,能够彻底解决这个问题。所以在这里分享:) 您必须调整conf目录

nutch-default.xml中定义的参数

因此请检查max.content.length,为此定义的值大约为60K,但实际上页面内容更多,因此无法抓取整个页面,这就是为什么链接无法在爬网中显示的原因页。

所以在抓取任何网站之前请检查这些参数:) 享受爬行:)

PS:对不起我的情况有些人认为我在这里发帖提问然后发布解决方案。在发布问题之前我实际上尝试了很多..