Nutch如何抓取但不索引网站导航(w / Solr)

时间:2013-07-17 16:13:25

标签: solr nutch

虽然我认为这应该是一个标准程序,但我并没有真正通过搜索找到任何内容,这可以很好地说明如何从爬网过程中Nutch索引到Solr的内容中排除网站导航菜单内容。

也就是说,我看到所有内容中的导航菜单文本都被编入索引,这会损害搜索,因为所有内容都会包含相同的文本。显然我想继续使用网站导航进行抓取,但我不希望它被编入索引。 Nutch是否有最佳实践方法?就像一种将导航包装在某种标签<!-- NO_NUTCH_IDX -->中的方式,例如?

我是Nutch的新手(显然),所以我不知道最好的地方。

非常感谢。

0 个答案:

没有答案