主空间中所有标题的Wiki转储比维基百科所报告的要多

时间:2017-08-23 00:12:06

标签: mediawiki wikipedia wikipedia-api mediawiki-api

我正在查询每个维基百科页面的所有修订历史记录。我从链接https://dumps.wikimedia.org/enwiktionary/20170320/下载了主名称空间中的页面标题列表的wiki转储 但是,似乎我下载的转储中有超过12,000,000个标题,这比维基百科报道的更多(https://en.wikipedia.org/wiki/Wikipedia:Size_comparisons)。谁能告诉我发生了什么事?我使用正确的转储吗?

我问的原因是,如果我查询提供文章标题的历史记录,看起来需要几百天才能获得所有修订历史记录。因此,如果有更好的方法来提取修订历史记录,那么它也会非常有用。

1 个答案:

答案 0 :(得分:2)

首先,这是Wiktionary中的页面转储。维基百科的id为enwiki,但即使使用正确的转储,计数匹配也需要付出一些努力:

  • 有些网页是redirects
  • 某些网页不会被视为有效内容网页,因此会从official statistics中排除。要被视为有效,页面应至少包含一个内部链接。