Question

我是Nutch的新手并不确定这里发生了什么。我运行nutch并抓取我的网站，但它似乎忽略了包含查询字符串的URL。我在crawl-urlfilter.txt页面中注释掉了这个过滤器，所以它现在看起来像这样：

# skip urls with these characters
#-[]

#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/

所以，我认为我已经有效地删除了任何过滤器，所以我告诉nutch接受它在我的网站上找到的所有网址。

有没有人有任何建议？或者这是nutch 1.2中的一个错误？我应该升级到1.3，这将解决我遇到的这个问题吗？或者我做错了什么？

Answer 1

第一个'编辑'应该回答你的问题。

Answer 2

# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]

您必须对其进行评论或将其修改为：

# skip URLs containing certain characters as probable queries, etc.
-[*!@]

Answer 3

默认情况下，抓取工具不应抓取带有查询字符串的链接，以避免使用垃圾邮件和虚假搜索引擎。