有人知道维基词典XML文件结构吗?

时间:2015-09-10 20:41:40

标签: xml wiktionary

我要用多种语言(英语,日语等)解析维基词典。从这里(Parse Wiktionary XML data dump into MySQL database using PHP)我看到了它的基本结构。但我的问题是这些元素代表什么?

例如,我认为页面元素下的标题是词汇表中的一个单词。但是它在其他语言中的翻译在哪里?它的同义词在哪里?

1 个答案:

答案 0 :(得分:2)

" ...用其他语言翻译?它的同义词在哪里?"

对你来说有三个坏消息。

  1. 所有这些信息(翻译,同义词)都是维基文章的纯文本。

  2. 不同的维基词典有不同的字典文章结构。例如,比较English WiktioinaryRussian Wiktionary中文章的结构。

  3. 维基文章的结构未在XML文件中显示,它只是一个简单的纯文本,请参阅第1项。因此,您需要解析此文本以提取同义词或翻译。

  4. 欢迎您阅读我关于将维基文章文章转换(解析)到机器可读数据库的论文:http://arxiv.org/abs/1011.1368