如何在Nutch到Solr索引期间跳过具有空内容字段的文档?

时间:2013-10-15 18:39:04

标签: apache solr indexing nutch web-crawler

在solrindex期间,如何告诉Nutch跳过使用空内容字段索引这些文档?

我找到了http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/,但是index-omit插件只允许Nutch过滤那些没有某些元标记字段的文档,而不是内容等常规字段。

1 个答案:

答案 0 :(得分:2)

您可能需要实现一个新的Nutch过滤器,如果内容为空,则会丢弃该文档。

您可以通过以下链接获取有关如何编写插件的更多信息:https://wiki.apache.org/nutch/AboutPlugins

编辑:
我写了一个简单的插件就是一个例子。 它查看“内容”字段,如果它是空的,它将忽略该文档而不对其进行索引。

您可以从此处获取:https://github.com/nimeshjm/index-discardemptycontent

相关问题