parsing - 如何确定文档是否为文章？

时间：2011-04-05 19:42:38

标签： parsing solr filtering apache-tika

说我有X文件什么算法/库/ tika配置/ nekohtml过滤器会告诉我哪些是“文章”，哪些不是，并且对于那些给我文章文本（即没有其他周边文字）。

通过一篇文章，我的意思是结构化文本至少包含一个段落，我认为大多数人类读者可以过滤掉这些。

我想到的最简单的方法是确保doclength＆gt; Y，例如，Y将是350个单词。但这不是最可靠的方法，因为例如可能有很长的列表，并且它没有给我文章文本。寻找

标签，还不够好。

答案 0 :(得分：2)

您可以使用Boilerpipe从页面中提取文本，然后根据您的启发式（即文章长度）确定自己是否是文章。我担心你的解决方案无论如何都行不通。断开连接的项目列表仍然看起来像一个句子列表。您需要“理解”内容。

答案 1 :(得分：2)

取决于吞吐量，延迟，连接性和其他非技术因素（如金钱）等因素，如果人类可以轻松地为计算机做些事情，您可能需要考虑使用Amazon Mechanical Turk来定义HIT从其他类型的文字中讲述一篇文章。有一个API可以将HIT结果与您的代码集成。