Nutch甚至对父级网址进行爬网,甚至指定了网址过滤器

时间:2018-08-16 15:43:06

标签: nutch

  1. 我的抓取过程有问题。在url-regexfilter.txt文件中,我指定了以下过滤器

^ +(http | https)://www.abc.com/subdomain

我想阻止父URL,我只想仅对子域下的子子域进行爬网。帮助我了解如何阻止父网址。

1 个答案:

答案 0 :(得分:0)

尝试

+^(http|https)://www.abc.com/subdomain
-^(http|https)://www.abc.com/
-^.

您可以以此来测试是否被拒绝

bin/nutch org.apache.nutch.net.URLFilterChecker -filterName urlfilter-regex

添加您的网址,如果-被拒绝或+可以