Nutch 1.2 - 为什么nutch不会使用查询字符串抓取网址?

时间:2011-08-12 20:05:39

标签: nutch

我是Nutch的新手并不确定这里发生了什么。我运行nutch并抓取我的网站,但它似乎忽略了包含查询字符串的URL。我在crawl-urlfilter.txt页面中注释掉了这个过滤器,所以它现在看起来像这样:

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

所以,我认为我已经有效地删除了任何过滤器,所以我告诉nutch接受它在我的网站上找到的所有网址。

有没有人有任何建议?或者这是nutch 1.2中的一个错误?我应该升级到1.3,这将解决我遇到的这个问题吗?或者我做错了什么?

3 个答案:

答案 0 :(得分:2)

请在此处查看我之前的问题Adding URL parameter to Nutch/Solr index and search results

第一个'编辑'应该回答你的问题。

答案 1 :(得分:2)

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

您必须对其进行评论或将其修改为:

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

答案 2 :(得分:0)

默认情况下,抓取工具不应抓取带有查询字符串的链接,以避免使用垃圾邮件和虚假搜索引擎。