如何计算Zipf法律中的单词频率?

时间:2015-05-24 11:32:51

标签: collections task frequency words

在集合中有4个不同的单词a,b,c,d,其频率顺序为a> 1。 b> c> d。此集合中的令牌总数为1500.使用Zipf's law,这四个单词的频率是多少?

Zipf法律是否有任何公式?

我研究过,最常见的事件发生率大约是Zipf法律中第二个最常用字词的两倍。

1 个答案:

答案 0 :(得分:3)

我谦卑地指导你the wikipedia article on Zipf's Law

正式,让:

  • N是元素的数量;
  • k是他们的等级;
  • s的价值 表征分布的指数。

Zipf定律然后预测,在N个元素的群体中,等级k的元素的频率, f(k; s,N),是:

f(k;s,N)=\frac{1/k^s}{\sum_{n=1}^N (1/n^s)}.

你去吧。有一个单词频率的公式。