从维基百科页面获取xml

时间:2013-02-12 08:29:49

标签: xml parsing wikipedia

我试图从xml解析维基百科页面。 我使用Special:Export链接获取页面的xml,其中包含以下链接:

http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis

但是,当我试图获取文件或类别页面时,我无法使用此链接,例如,此页面不会返回xml:

http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films

http:// en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg

我找到了一个解决方案,但我不明白:

  1. 将命名空间添加到页面名称(例如'帮助:内容'), 除非所选命名空间是主命名空间。
  2. 对其他名称空间重复上述步骤(例如,类别:, 模板:等。)
  3. 我在http://meta.wikimedia.org/wiki/Help:Export找到了这个解决方案。 这意味着什么。

    谢谢。

1 个答案:

答案 0 :(得分:3)

Special:Export生成给定页面的内容,但“类别文章列表”或“文件”不是页面。您从Export获得的内容只是类别或文件描述页面的xml。

要检索属于某个类别的网页列表,您需要MediaWiki API:Categorymembers.

试试this example。您也可以使用API Sandbox来理解不同的参数。

您无法直接下载文件。但是,imageinfo API可以为您生成文件的URL,例如this example

另请参阅:Download images with MediaWiki API?

相关问题