刮痧:检查wiki页面是否是个人页面

时间:2015-10-15 08:57:43

标签: web-scraping wiki

我一直试图将所有传记维基页面刮掉几周。问题是我无法找到区分有关某人或其他内容的页面的方法。

例如以下页面:

关于他们的HTML代码看起来非常相似。我确信必须有一个关键词,以便知道该页面是否与某人有关。

有没有人遇到同样的问题? 在此先感谢=)

1 个答案:

答案 0 :(得分:2)

我不确定是否有明确的方法可以告诉您,但您可以建立一个指标列表,您认为该页面可能与某个人有关,然后就这些指标进行匹配。

例如,在阿尔伯特爱因斯坦的页面上,有一个部分用于" Born"并且"死了"在右侧窗格中。通过提供这些礼物,我们可以非常肯定这篇文章是关于一个人的(虽然如果你寻找死亡,你可能只会死人)。然而,这些标题并不一致,您需要与这些标题中的一个或多个匹配,以建立对该文章确实关于某人的信心。例如https://en.wikipedia.org/wiki/Lionel_Messi并不包含" Born"标题,但它确实包含"出生日期"。

除此之外,您可以进行一些自然语言解析,以尝试找出页面上的主要文本是否在谈论一个人。很多提及"他"或者"她",可能意味着文章在谈论一个人。

相关问题