如何通知Nutch避免抓取网站列表

时间:2015-08-19 07:12:47

标签: web-crawler nutch

我正在使用Apache nutch 2.2.1。我的爬虫爬行整个网络,即没有应用过滤器。我的网站很少,我不想永远被nutch抓取。

怎么做?

2 个答案:

答案 0 :(得分:1)

您是否尝试在配置中输入特定的“种子网址”,例如http://my.site.to/crawl(用更有用的东西代替)

文件夹/ conf / urls中应该有一个名为“seed.txt”的配置文件。

答案 1 :(得分:1)

我认为在Apache nutch配置目录中,有一个文件名regex-urlfilter.txt。这将完成您正在寻找的工作。例如,如果您必须阻止网站http://wiki.thm.com,则在上面的文件中写下以下内容

-^(http|https)://http://wiki.thm.com.*$

如需进一步研究Nutch wiki

相关问题