预测文件的分数?

时间:2013-05-20 14:17:52

标签: machine-learning nlp

我有一组文件及其相应的分数,这与SO上的upvote / downvote的数量非常相似。我想构建一个能够预测文档得分的系统。一些用于回归的机器学习方法和用于从文档中获取有用特征的自然语言处理技术可能会有所帮助。

这种问题是否有任何最先进的方法?我在Google学术搜索中进行了一些搜索但未能找到令人满意的结果。

感谢。

1 个答案:

答案 0 :(得分:2)

预测答案的质量或有用性仍然非常困难。算法与其他机器学习问题没有什么不同:人们只是使用基于标准回归的技术。它真的会归结为很多特征提取。例如,要预测新闻聚合器(如reddit或digg)上的故事的投票数,您可能希望查看该帖子的主题是否与趋势新闻故事有关。如果趋势结束,它可能不会得到很多选票。

您将需要了解哪些功能在您工作的域中有用。您可以尝试使用作者使用的语言的复杂性。您可以通过每个句子的平均单词数量,单词的平均长度,也可以是文档中单词的总数来衡量。您可以尝试通过拼写检查程序运行它:也许有大量拼写错误的文档会被低估。

在Google学术搜索中搜索有几个研究领域:

  • 自动论文评分
  • 预测故事在Digg上的流行
  • 预测转推的转发次数

最近在kaggle.com上也有过几个关于这个主题的数据科学竞赛。用户论坛通常都有关于他们如何处理这些事情的非常好的信息。这是automated essay scoring上的一个。