如何从&#34中提取链接;另请参阅"维基百科上一篇文章的一部分?

时间:2016-05-23 16:45:20

标签: wikipedia wikipedia-api

有没有办法从&#34中提取所有链接;另请参阅"通过Wikpedia API撰写维基百科文章中的部分?

我想知道一种方法,但我找不到。

2 个答案:

答案 0 :(得分:4)

是的,你可以使用维基百科API和action=parse来实现。为此目标,我们需要两个属性:sectionslinks。例如,对于维基百科文章Chicago,我们使用下一个查询来获取名称为“另请参见”的部分的索引

https://en.wikipedia.org/w/api.php?action=parse&prop=sections&page=Chicago

从回复中我们看到 43 。然后我们使用该索引来获取此部分中的链接:

https://en.wikipedia.org/w/api.php?action=parse&prop=links&page=Chicago&section=43

注意:最后一个回复还可以包含来自某些模板的链接,例如我们的案例 Portal:Chicago Portal:Illinois 。如果您愿意,可以在请求中使用命名空间& ns = 0 来过滤它们。

答案 1 :(得分:0)

不直接通过API。 MediaWiki基于每页跟踪链接,它不存储有关链接来自哪个部分的信息。

我认为您最好的选择是获取该部分的HTML,解析它并收集所有<a href个元素。