如何从维基百科获取Infobox数据?

时间:2010-07-22 18:56:14

标签: wiki mediawiki wikipedia

如果我有网页的网址,我如何使用MediaWiki网络服务获取右边的信息框信息?

8 个答案:

答案 0 :(得分:16)

也许有点晚了,但我想要同样的事情,并没有在这里看到任何简单的解决方案,但是(正如Bryan所指出的)事实证明使用Mediawiki API与此库并不太难:

https://github.com/siznax/wptools

用法:

>>> import wptools
>>> so = wptools.page('Stack Overflow').get_parse()
>>> so.infobox
{'alexa': '{{DecreasePositive}}',
 'author': '[[Joel Spolsky]] and [[Jeff Atwood]]',
 'caption': 'Screenshot of Stack Overflow as of February 2015',
 'commercial': 'Yes',
 'content_license': '[[Creative Commons license|CC-BY-SA]] 3.0',
 'current status': 'Online',
 'landscape': 'yes',
 'language': 'English',
 'launch date': '{{start date and age|2008|9|15}}',
 'logo': 'Stack Overflow logo.svg',
 'name': 'Stack Overflow',
 'owner': 'Stack Exchange, Inc.',
 'programming_language': '[[C Sharp (programming language)|C#]]',
 'registration': 'Optional; Uses [[OpenID]]',
 'revenue': '',
 'screenshot': 'Stack Overflow homepage.png',
 'slogan': '',
 'type': '[[:Category:Knowledge markets|Knowledge markets]]',
 'url': '{{URL|https://stackoverflow.com}}'}

答案 1 :(得分:13)

我只想解析信息框,或者想要获取一些消化数据,看看DBPedia项目:http://dbpedia.org

它扫描WP中的信息框以从维基百科创建一个RDF数据库:https://github.com/dbpedia/extraction-framework/

答案 2 :(得分:11)

答案 3 :(得分:3)

每个维基百科页面都与维基数据项目相关联,所有这些项目都包含维基百科页面的信息框模板中的大多数参数。因此,您只需要从Wikidata API访问与您的维基百科页面相关联的数据。

如何从Donald Trump获取维基百科Wikidata item页面的数据的示例:

https://www.wikidata.org/w/api.php?action=wbgetentities&sites=enwiki&props=claims&titles=Donald Trump

回复将包括:出生日期和地点,图片,宗教,母亲,父亲,孩子,身高,签名,官方网站等...,所有关于唐纳德特朗普的主要信息都包含在维基百科信息框中。

答案 4 :(得分:1)

答案 5 :(得分:0)

在我们的项目中,我们使用查询从wiktionary获取数据,如下所示:

http://query.yahooapis.com/v1/public/yql?q=select%20*%20from%20html%20where%20url%3D%22http%3A%2F%2Fen.wiktionary.org%2Fwiki%2Flife%22%20and%20xpath%3D'%2F%2Fdiv%5B%40id%3D%22bodyContent%22%5D'&format=xml&diagnostics=false&env=store%3A%2F%2Fdatatables.org%2Falltableswithkeys&callback=recwiki

我对它没有全面的了解,但它确实有效。输出结果可以使用jquery或其他东西进行过滤。

答案 6 :(得分:0)

使用编辑模式怎么样?你可以从正确的TextArea开始(大部分时间包含id="wpTextBox1")并解析TextArea的内容...... 我以前找到的URL是(注意:section = 0):

https://de.wikipedia.org/w/index.php?title=Pelephone&action=edit&section=0

问候

答案 7 :(得分:-1)

使用MediaWiki,您可以使用以下链接查看维基百科页面右侧的信息框。如您所见,格式为JSON(可以更改),通过将“氢”字改为您想要的特定标题,您将获得一个带有信息框的页面。

https://en.wikipedia.org/w/api.php?action=parse&page=Template:Infobox%20hydrogen&format=json