nutch - 为什么nutch不会在没有英语网站的情况下抓取所有链接？

时间：2012-01-31 03:17:57

标签： nutch web-crawler

我用nutch 1.4抓取一个网站，我知道nutch不会抓取这个网站中的所有链接。我没有过滤器，没有限制规则来爬行。例如，nutch永远不会抓取此链接：

http://www.irna.ir/News/30786427 /سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

如果我将这个链接提供给nutch来抓取，nutch永远不会抓取此链接。这个网站是波斯语而不是英语。我怎么能爬这个链接？

答案 0 :(得分：0)

Nutch在添加crawldb之前在每个url上运行URL规范化和其他url处理。您的网址可能已经过滤了。您可以从使用的插件列表中删除这些插件（plugin.includes中的conf/nutch-site.xml属性），然后重试。

答案 1 :(得分：0)

它可能无法获取非英语URL的一个原因是因为www.irna.ir上的Web服务器和使用过的nutch客户端使用了不同的URL编码。