我试图从xml解析维基百科页面。 我使用Special:Export链接获取页面的xml,其中包含以下链接:
http://en.wikipedia.org/wiki/Special:Export/Bruce_Willis
但是,当我试图获取文件或类别页面时,我无法使用此链接,例如,此页面不会返回xml:
http:// en.wikipedia.org/wiki/Special:Export/Category:English-language_films
http:// en.wikipedia.org/wiki/Special:Export/File:Bruce_Willis_by_Gage_Skidmore.jpg
我找到了一个解决方案,但我不明白:
我在http://meta.wikimedia.org/wiki/Help:Export找到了这个解决方案。 这意味着什么。
谢谢。
答案 0 :(得分:3)
Special:Export
生成给定页面的内容,但“类别文章列表”或“文件”不是页面。您从Export获得的内容只是类别或文件描述页面的xml。
要检索属于某个类别的网页列表,您需要MediaWiki API:Categorymembers.
试试this example。您也可以使用API Sandbox来理解不同的参数。
您无法直接下载文件。但是,imageinfo
API可以为您生成文件的URL,例如this example。