如何获取维基的类别树?

时间:2012-09-01 10:54:53

标签: php web-crawler wikipedia

我想获取所有wiki类别ID,类别名称和父类别ID。但是,我不想在我自己的服务器上安装完整的wiki。是否有一个API或所有类别数据avaiale到wiki服务器上的任何xml / bz文件?所以我可以使用它吗?

我想在this link

中获取以下所有类别

1 个答案:

答案 0 :(得分:2)

我认为你基本上有两种选择:

  1. 使用the API(特别是the categorymembers module)以递归方式遍历树(实际上,它不是树,而是DAG)。这意味着要提出很多请求,所以这样做会很慢。

  2. 下载包含类别信息的SQL dumps。您需要的大部分信息都在categorylinks表中,但您还需要page表来将页面ID映射到其名称。

相关问题