为什么nutch不会在没有英语网站的情况下抓取所有链接?

时间:2012-01-31 03:17:57

标签: nutch web-crawler

我用nutch 1.4抓取一个网站,我知道nutch不会抓取这个网站中的所有链接。我没有过滤器,没有限制规则来爬行。例如,nutch永远不会抓取此链接:

http://www.irna.ir/News/30786427 /سوء-استفاده-از-نام-كمیته-امداد-برای-جمع-آوری-رای-در-مناطق-محروم/سياسي/

如果我将这个链接提供给nutch来抓取,nutch永远不会抓取此链接。这个网站是波斯语而不是英语。 我怎么能爬这个链接?

2 个答案:

答案 0 :(得分:0)

Nutch在添加crawldb之前在每个url上运行URL规范化和其他url处理。您的网址可能已经过滤了。您可以从使用的插件列表中删除这些插件(plugin.includes中的conf/nutch-site.xml属性),然后重试。

答案 1 :(得分:0)

它可能无法获取非英语URL的一个原因是因为www.irna.ir上的Web服务器和使用过的nutch客户端使用了不同的URL编码。

相关问题