如何确定文档是否为文章?

时间:2011-04-05 19:42:38

标签: parsing solr filtering apache-tika

说我有X文件什么算法/库/ tika配置/ nekohtml过滤器会告诉我哪些是“文章”,哪些不是,并且对于那些给我文章文本(即没有其他周边文字)。

通过一篇文章,我的意思是结构化文本至少包含一个段落,我认为大多数人类读者可以过滤掉这些。

我想到的最简单的方法是确保doclength> Y,例如,Y将是350个单词。 但这不是最可靠的方法,因为例如可能有很长的列表,并且它没有给我文章文本。 寻找

标签,还不够好。

2 个答案:

答案 0 :(得分:2)

您可以使用Boilerpipe从页面中提取文本,然后根据您的启发式(即文章长度)确定自己是否是文章。我担心你的解决方案无论如何都行不通。断开连接的项目列表仍然看起来像一个句子列表。您需要“理解”内容。

答案 1 :(得分:2)

取决于吞吐量,延迟,连接性和其他非技术因素(如金钱)等因素,如果人类可以轻松地为计算机做些事情,您可能需要考虑使用Amazon Mechanical Turk来定义HIT从其他类型的文字中讲述一篇文章。有一个API可以将HIT结果与您的代码集成。