从其html页面中提取维基百科文章的文本和类别信息

时间:2011-02-07 18:50:22

标签: html-parsing wikipedia

我从网上获取了一组html格式的维基百科文章。我需要提取描述文章所属的文章和类别信息的纯文本吗?

1 个答案:

答案 0 :(得分:1)

如果你想获取类别,使用API​​比解析HTML更容易。

此处记录了API:http://en.wikipedia.org/w/api.php