维基百科的解析器

时间:2010-10-08 06:02:16

标签: java mediawiki nlp nsxmlparser wikipedia

我下载了一个维基百科转储,我想将维基格式转换为我的对象格式。是否有可用的wiki解析器将对象转换为XML?

7 个答案:

答案 0 :(得分:7)

java-wikipedia-parser。我从未使用它,但根据文档:

  

解析器附带一个HTML   发电机。但是你可以控制   正在生成的输出   传递你自己的实现   be.devijver.wikipedia.Visitor   接口

答案 1 :(得分:2)

我不知道维基百科转储的xml格式究竟如何。但是,如果文本的一部分是维基百科标记,我建议调查http://lucene.apache.org/java/3_0_2/api/contrib-wikipedia/org/apache/lucene/wikipedia/analysis/WikipediaTokenizer.html。这是apache lucene的Wikipedia包的类之一。我没有使用它,但apache lucene是一个非常成熟的项目,所以值得尝试它 - 在这种情况下是实验 - 包。

答案 2 :(得分:2)

JWPL解析器使用MediaWiki标记分析文本结构,并将其表示为Java对象。这允许对例如内容的结构化访问。维基百科或维基词典。没有独立的解析器版本,因为它是JWPL Wikipedia API版本的一部分。但是,无需使用JWPL访问Wikipedia,就可以完美地使用它。

http://code.google.com/p/jwpl/wiki/JWPLParser

答案 3 :(得分:1)

这可能会有所帮助:a page with converters from mediawiki to other formats, including docbook。 Docbook是一种基于xml的标准格式,可能符合您的需求(mediawiki内容的xml表示)

答案 4 :(得分:0)

您可以使用各种工具来解析您的内容。所有脚本语言都有模块。 例如,Perl语言有Text::Markup::Trac,它是Text :: Markup的Trac wiki语法解析器。它会生成一个HTML文件。

答案 5 :(得分:0)

Wiki Parser将Wikipedia转储转换为已解析的XML。可能正是你所需要的。

答案 6 :(得分:-1)

你可以试试wikiprep这是一个perl维基百科解析器check it's page

它会输出许多文件,其中一些是

1-维基百科解析为XML 2- cat-hier文件,其中包含维基百科类别层次结构

我已经尝试过了,这非常有用 这是唯一的问题,它需要高内存可用于处理最可能超过4GB的RAM 您也可以从here下载预先准备好的XML版本,该版本也可以在页面上找到