nlp - 阿拉伯语词义化和斯坦福NLP

斯坦福大学的阿拉伯语分词不能做真正的词形还原。但是，可以训练一个新的模型来做类似词干的事情：

تكتبون←ت+كتب+ون
يتصل←ي+تصل

如果非常重要的是输出是真正的阿拉伯语引理（“تصل”不是真正的引理），那么使用像MADAMIRA（http://nlp.ldeo.columbia.edu/madamira/）这样的工具可能会更好。

详细说明：斯坦福阿拉伯语分段器仅使用这些操作（在edu.stanford.nlp.international.arabic.process.IOBUtils中实现）逐个字符地生成输出：

在两个字符之间拆分
将lil-（لل）转换为li + al-（ل+ال）
将ta（Ê）或ha（ه）转换为ta marbuta（É）
将ya（ي）或alif（ا）变换为alif maqsura（ى）
将alif maqsura（ى）转换为ya（ي）

因此，将يتصل词条化为ي+اتصل需要实现一个额外的规则，即在ya或ta之后插入alif。某些不规则形式的词形还原是完全不可能的（例如，نساء←امرأة）。

可供下载的斯坦福分段器版本也只能断言代词和粒子：

وسيكتشفونه←و+س+يكتشفون+ه

但是，如果您可以访问LDC阿拉伯语树库或具有注释形态分割的类似丰富的阿拉伯语文本来源，则可以训练您自己的模型以删除所有形态词缀，这更接近词形推理：

وسيكتشفونه←و+س+ي+كتشف+ون+ه

请注意，“كتشف”不是真正的阿拉伯语单词，但是分段符号应该至少始终为تكتشفين，أكتشف，يكتشف等生成“كتشف”。如果这是可以接受的，则需要将ATB预处理脚本更改为而是使用形态分割注释。您可以通过将名为parse_integrated的脚本替换为修改后的版本来执行此操作：https://gist.github.com/futurulus/38307d98992e7fdeec0d

然后按照自述文件中的“训练SEGMENTER”的说明进行操作。

我不确定Stanford NLP工具包是否有一个lammetizer，但你可以试试

最先进的是Farasa Lemmatizer。
MADAMIRA进行阿拉伯语处理

Farasa Lemmatizer在准确性方面优于MADAMIRA Lemmatizer。准确度约为97.23％。在词形还原任务中，它比MADAMIRA提供了+ 7％的相对增益。

您可以从以下链接了解有关Farasa Lemmatizer的更多信息： https://arxiv.org/pdf/1710.06700.pdf

阿拉伯语词义化和斯坦福NLP

2 个答案: