如何从Wiki导出转储

时间:2018-06-06 16:14:06

标签: wiki dump mediawiki-api

我一直在搜索如何抓取一些wiki(即https://fr.vikidia.org/https://fr.wikimini.org/)来为NLP创建纯文本语料库。

据我了解,为维基百科这样做通常是通过从https://dumps.wikimedia.org/下载转储并使用WikiExtractor之类的解析器工具来完成的,但似乎我无法从这些转储中获取转储转储网站上的wiki,是不是?

在MediawikiAPI的Help:Export页面之后,到目前为止我找到了两个部分答案:

1)为这些wiki配置MediawikiAPI,并使用带有-search

选项的脚本listpages.py

问题:我同时为每篇文章在一个文件中保存了10,000个页面的内容,但是这个内容被保存为带有模板的格式化文本而不是XML,这使得它不能用于WikiExtractor,所以我无法在这里访问纯文本。

2)关注these instructions以获取页面名称列表特殊:每个维基的所有页面,将其粘贴到其页面中特殊:导出并生成XML转储

问题:这次我得到一个由WikiExtractor正确解析的格式,产生纯文本,但我需要为数百页重现此操作特殊:每个维基的所有页面,这是不实用的一点都不。

你知道我怎么能从wiki变成纯文本吗?