Question

我正在使用Apache nutch 2.2.1。我的爬虫爬行整个网络，即没有应用过滤器。我的网站很少，我不想永远被nutch抓取。

怎么做？

Answer 1

您是否尝试在配置中输入特定的“种子网址”，例如http://my.site.to/crawl（用更有用的东西代替）

文件夹/ conf / urls中应该有一个名为“seed.txt”的配置文件。

Answer 2

我认为在Apache nutch配置目录中，有一个文件名regex-urlfilter.txt。这将完成您正在寻找的工作。例如，如果您必须阻止网站http://wiki.thm.com，则在上面的文件中写下以下内容

-^(http|https)://http://wiki.thm.com.*$

如需进一步研究Nutch wiki。