我正在使用Apache nutch 2.2.1。我的爬虫爬行整个网络,即没有应用过滤器。我的网站很少,我不想永远被nutch抓取。
怎么做?
答案 0 :(得分:1)
您是否尝试在配置中输入特定的“种子网址”,例如http://my.site.to/crawl(用更有用的东西代替)
文件夹/ conf / urls中应该有一个名为“seed.txt”的配置文件。
答案 1 :(得分:1)
我认为在Apache nutch配置目录中,有一个文件名regex-urlfilter.txt。这将完成您正在寻找的工作。例如,如果您必须阻止网站http://wiki.thm.com,则在上面的文件中写下以下内容
-^(http|https)://http://wiki.thm.com.*$
如需进一步研究Nutch wiki。