java - 处理维基百科转储文件

时间：2012-02-15 20:07:44

标签： java

我想处理维基百科转储文件。换句话说，我想为每篇文章提取标题，类别和文本内容。我想问的是，是否有任何java api /工具可以帮助我做到这一点。提前谢谢

答案 0 :(得分：8)

Wikipedia转储文件采用XML格式。因此，您可以使用任何可用的XML工具来实现此目的。

请注意，由于转储文件的大小，SAX解析器通常比DOM解析器更有效（因为DOM解析器会尝试将整个内容加载到内存表示中）。

答案 1 :(得分：3)

看看http://code.google.com/p/jwpl/ 它是一个java api，它为你提供了对wikipedia转储的结构化访问，你需要一个数据库（mysql或类似的），并且最近的维基百科转储了很多ram，但至少要处理4g。

但它很好用：你可以获得所有页面或页面标题的迭代器以及更容易使用的东西。

答案 2 :(得分：1)

你在找这样的东西吗？

该页面提供了有关如何使用API的示例。