Nutch - 抓取链接页面,但不要索引

时间:2014-12-31 15:48:43

标签: solr nutch

我想将网站指向index.html页面以启动它,但不想在我的搜索结果中包含index.html,而只是将子页面显示在结果中。是否需要删除特定页面?

1 个答案:

答案 0 :(得分:0)

就像更新一样,我发现问题的唯一解决方案是在作为辅助步骤被抓取后从集合中删除这些URL。