轻松导出维基百科的翻译标题

时间:2014-01-08 16:11:25

标签: wikipedia

有没有一种简单的方法可以导出维基百科的翻译标题来得到这样的集合:
russian_title -> english_title

我试图从中获取 ruwiki-latest-pages-meta-current.xml.bz2 and ruwiki-latest-pages-articles.xml.bz2但是,翻译量不到25,000。

我发现有些人不在场。例如。可以看到指向英语维基here的链接,但转储中没有链接[[en:Yandex]]

也许我应该尝试解析英语维基百科,但我确信有更好的解决方案。

顺便说一句,我正在使用wikixmlj +尝试使用en:Yandex查找grep

UPD:链接到@ svick的解决方案数据:http://dumps.wikimedia.org/ [语言代码] wiki / latest / 例如http://dumps.wikimedia.org/ruwiki/latest/

1 个答案:

答案 0 :(得分:1)

各种语言的维基百科文章之间的大部分链接现在都在Wikidata。所以,如果你想访问源代码,你可以下载维基数据转储并解析它(它是用JSON)。

但我认为更好的方法是使用the langlinks table的转储。这包含您想要的信息,包括来自维基数据的链接和仍旧旧格式的链接。

此转储采用SQL格式。您可以将该转储导入MySQL数据库,也可以直接解析(我已写过a .Net library that does that)。

该表包含从您的wiki的页面ID(在您的情况下是俄语维基百科)到其他wiki的页面标题的映射。这意味着您将需要您感兴趣的页面的页面ID。对于少量页面,您可以使用the “Page information” link手动查找它们,或者您可以使用API​​。但是,如果您需要大量页面,则应下载page表的转储,其中包含此映射。

相关问题