如何获取Wikipedia条目的模板类型

时间:2011-02-06 22:48:18

标签: wikipedia wikipedia-api

我需要找出维基百科页面条目的模板类型。到目前为止,我依赖于将查询结果解析为维基百科,这在某种程度上起作用。

例如,如果我搜索 Joel Spolsky,我可以正则匹配'infobox',并发现此页面引用了Infobox Person

但问题是,维基百科模板类型没有一致的命名方案,并且“信息框”通常不会在模板名称中使用。

例如,如果我搜索Pittsburgh Steelers,我无法可靠地找到从结果中提取NFL team模板的方法。

是否有人知道查询维基百科页面的模板类型的方法?谢谢:))

2 个答案:

答案 0 :(得分:1)

最简单的方法是查看页面的类别而不是模板。例如,Joel Spolsky有“Living people”类别,Pittsburgh Steelers有“国家橄榄球联盟球队”类别。

答案 1 :(得分:0)

也许DBpedia可以提供帮助。 DBpedia etxracts来自维基百科的结构化数据,提供下载并将其存储在可公开访问的数据库中。例如,请在http://dbpedia.org/sparql处尝试以下查询:

select distinct ?t where {
  ?t a <http://dbpedia.org/ontology/AmericanFootballTeam> .
}

它以RDF格式返回DBpedia所知的所有美式橄榄球队。现在几乎所有语言都有RDF API,因此获取所需数据应该相对容易。