应用错误收集

时间：2013-02-12 08:29:49

标签： xml parsing wikipedia

我试图从xml解析维基百科页面。我使用Special：Export链接获取页面的xml，其中包含以下链接：

但是，当我试图获取文件或类别页面时，我无法使用此链接，例如，此页面不会返回xml：

http：// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

http：// en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一个解决方案，但我不明白：

我在http://meta.wikimedia.org/wiki/Help:Export找到了这个解决方案。这意味着什么。

谢谢。

答案 0 :(得分：3)

Special:Export生成给定页面的内容，但“类别文章列表”或“文件”不是页面。您从Export获得的内容只是类别或文件描述页面的xml。

要检索属于某个类别的网页列表，您需要MediaWiki API：Categorymembers.

试试this example。您也可以使用API Sandbox来理解不同的参数。

您无法直接下载文件。但是，imageinfo API可以为您生成文件的URL，例如this example。