如何配置apache nutch删除所有标签及其内容?

时间:2013-08-30 04:18:56

标签: apache configuration nutch

这甚至可能吗?

我遇到导航问题,导航也作为内容包含在文档中。这就是为什么我要删除所有链接标记,使其不在数据中。

我正在使用1.7版本。

1 个答案:

答案 0 :(得分:3)

如果您只想告诉nutch不遵循“a”标签,您只需在“parser.html.outlinks.ignore_tags”设置中添加“a”即可。

如果你想从解析的数据中删除“a”标签及其内容,因为nutch附带的当前HtmlParser没有任何与此相关的设置,我认为你应该编写一个nutch插件并开发一个HtmlParseFilter来做你的逻辑。

相关问题