维基百科api计算一个词的出现。

时间:2013-04-23 08:40:49

标签: php api wikipedia

我需要为给定的单词实现一种关键词的度量。这意味着这个词有多重要,例如“示例”一词不如“核”这个词重要。我试图实现的建议措施是一个简单的措施,它考虑了该词的维基文章的出现总数以及它在链接中出现的次数

((link appearance)/(total appearances))

我可以使用

检索'term'的总出现次数
$url=http://en.wikipedia.org/w/api.php?&action=query&list=search&srlimit=50&srredirects&srprop=snippet&srnamespace=0&srsearch=term;
$page=unserialize(file_get_contents($url));
$totalhits=$page["query"]["searchinfo"]["totalhits"];

我现在需要的是一种检索单词出现在链接中的数字的方法。 Thnx提前。

1 个答案:

答案 0 :(得分:0)

我认为通过API无法合理地访问您所寻找的内容。相反,您应该下载dump of all articles(特别是pages-articles文件),然后通过该文件获取所需信息。