关键词排名

时间:2012-12-30 11:07:04

标签: ranking text-mining

我有95个文件中的关键字列表。我想对它们的重要性进行排序,但我只有关键字出现的文档数量和所有文档中关键字的最大频率。我正在寻找可以提供帮助的排名公式。目前我正在使用 IDF ,但我想知道是否有更好的公式。

2 个答案:

答案 0 :(得分:1)

单词频率已经通过Wikitionary Frequency Lists列出英语(和许多其他语言)中最重要的单词来完成,most important and top words除了TV and Movies most frequent words之外还有基于TF-IDF的多种类型的列表和许多其他人。

如果你想根据单词排名做一些算法,我建议你不要远离 here

和{{3}}你可以找到潜在的语义索引算法,这对我来说可能是一种资产。

希望这就是你所需要的。

答案 1 :(得分:1)

TF-IDF绝对是一个很好的基础并且易于实现。

在文档中添加其他偏见(例如条款的位置)也很常见;在文档开头发生的术语,或更好的,在其标题中往往比在中间或末尾发生的术语更具相关性。

但是你必须记住,选择算法及其偏见也取决于文档的性质。例如,长篇文件(例如研究论文或书籍)需要立场偏见,但不一定需要新闻文章。对于“IDF”措施,它必须在具有与您的文档类似的内容类型的大型文档集上计算。如果您的文档是关于半导体的研究论文,您不希望在“电视和电影”语料库上计算相关性分数。

我的两分钱。