维基百科转储所有页面标题和pageID

时间:2016-10-03 18:21:30

标签: database wiki wikipedia dump

我试图找到一个包含pageIds和标题的维基百科转储。我不想在运行时请求它或者请求每个请求2000,我想要它,我想要列出属于它们的所有pageIds和标题的长列表并将它们放入我自己的数据库中,这样我可以在请求我自己的数据库中的数据的应用程序中使用它。

有谁知道哪些转储包含这些信息?如果它们还包含我需要的更多信息并不重要 - 我可以编写一个应用程序来选择我需要的信息。

我确实试过要求它...它需要花费140天而且他们提出了2700个请求的限制...所以需要永远得到整个事情,而不是我想下载文件愚蠢和清理数据并将文件上传到我自己的数据库,其中只包含我需要的信息

1 个答案:

答案 0 :(得分:-1)

在获得多次转储后,我自己找到了它,简而言之答案是: enwiki-最新-page.sql.gz

它包含pageid和标题。

参赛作品如下所示: (1217768,0,' Black_River_(South_Carolina)''',0,0,0,0.6285160577990001,' 20161001141146'' 20161001142916&# 39;,738899573,1654,' wikitext的&#39)

第一个数字是pageId。第三项是标题。

休息我不知道是什么 - 但无论如何:D感谢我自己解决了这个问题并将其关闭:D大拍袋子

相关问题