从Wikipedia获取类别:重要文章

时间:2018-10-26 22:25:24

标签: mediawiki wikipedia wikidata wikidata-api

我正在尝试从维基百科获取我正在研究的项目的“类别树”。问题是我只想要更常见的主题和研究领域,因此我能够找到的较大的转储包含太多的外围文章。

我最近发现vital articles pages似乎完全是我要找的东西的集合。不幸的是,我真的不知道如何从这些页面中提取信息或如何过滤较大的转储,以仅包括这些类别和文章。

明确地说,我的问题是:给定重要的文章级别(say level 4),我如何提取给定列表的类别和文章名称树,例如人,艺术,物理科学等文件导入到csv或类似文件中,然后可以将其导入另一个程序中。我不需要文章的实际内容,只需要名称(最好是文章的引用,以便以后获得更多信息)。

我也愿意就如何更好地完成这项任务提出建议。

谢谢!

1 个答案:

答案 0 :(得分:0)

您使用PetScan吗?它是基于Wikimedia的工具,可以根据某些条件从页面提取数据。

您可以通过使用该工具来实现您的目标,然后导航至“模板和链接”标签,然后在“从所有这些页面链接到:”字段中输入页面名称,例如Wikipedia:Vital_articles/Level/4/History。如果要在文本区域添加多个页面,只需一行一行地输入即可。

最后,按“执行”!按钮,将生成数据。之后,您可以从“输出”选项卡下载数据。

相关问题