如何检查句子是否具有可读性?

时间:2016-10-11 17:01:56

标签: machine-learning nltk readability

我的目标是能够检测计算机生成的旋转内容。以下是一些旋转文本示例:

"作为广告组织的明确艺术时尚,您将有助于为拍卖客户提供帮助。通过你原有的技能和技术能力将作物和/或武装部队带到他们的目标市场。"

"实际的苹果iphone应用商店绝对是有用应用的珍贵住所。"

基本上,计算机已经用各种同义词替换了单词,试图使内容独特以绕过剽窃检测。我的目标是建立一个可以检测这种乱码文本的系统。有什么办法可以实现这个目标?

1 个答案:

答案 0 :(得分:1)

你要做的是制作一个{3}}。 ngram语言模型是语言中单词对出现的统计表示,用于机器翻译,情感分析和分类任务,例如预测电影评论是正面还是负面。您的分类任务是每个句子是否是旋转内容。

像幼稚贝叶斯(language model)这样的分类模型可以帮助您解决问题。在训练中它创建一个语言模型,然后使用该模型进行预测。要训​​练模型,您需要使用旋转内容示例和一堆常规英文文本。你越多越好!所有文件(您可以将每个句子视为文件)都应贴上标签,以表明它们是否是旋转内容。

以下是非旋转文字的英文implemented in NLTK列表。

更复杂的模型可能效果更好,您可以非常轻松地将它们并排比较。我喜欢用scikit-learn来做这类事情。