术语频率计算

时间:2010-05-20 17:49:47

标签: frequency term tf-idf

我需要计算文件中术语的术语频率...... 我所做的只是简单地“计算该术语出现在该文件中的次数”......如果该术语出现了138次,我将tf值设为138 ....我做对了.. ?? 因为我在某处读到了 termfrequency(tf)=文件中的术语计数/没有单词...如果这是真的,我如何计算文档中的单词的数量..对于它来说是一些正则表达式???

请回复..谢谢你

2 个答案:

答案 0 :(得分:0)

在大多数正则表达式实现中,存在单词边界\b的概念。因此,匹配一个单词的正则表达式可能如下所示:\b(\w+)\b

基本上,正则表达式所说的是:匹配单词边界,然后匹配至少1个单词字符(\w+),然后再单词边界。括号括起来只是将匹配的单词添加到一个组中,以便以后可以提取它。在您的情况下,这可能不是必需的,因此如果您愿意,可以删除它们。

我希望对你有所帮助。

答案 1 :(得分:0)

您没有提及您使用的语言/程序。大多数文本编辑器会告诉您文档中有多少单词。在unix中,您可以使用'wc -w filename'命令。

相关问题