自然语言处理 - 单词对齐

时间:2010-03-11 14:18:26

标签: alignment nlp linguistics

我正在寻找文字对齐工具和算法 我正在处理双语英语 - 印地语文本,目前正致力于

请您建议任何其他语言无关的算法/工具,它可以实现并行英语印地语语料库的统计词对齐及其评估
有些工具最适合某些语言;你能不能告诉我这是多么真实,如果是的话,请你提供一个更适合像印地语这样的亚洲语言的例子。反对我不应该使用这些语言的例子也是受欢迎的。

我听过一些关于Uplug word aligner的消息......有人能告诉我这个工具对我的用途是否有用。

谢谢.. :))

4 个答案:

答案 0 :(得分:5)

Berkeley Aligner非常好。通过对IBM字对齐模型进行联合培训,它可以比GIZA ++等旧版软件包获得更低的对齐错误率(AER)。

它还支持一些更高级的功能,例如语法失真(即,使用解析树信息来获得更好的对齐)。为此,您只需要为其中一个语言对解析树。所以,你应该可以做印地语< - >英语,因为有很多免费提供和良好的英语解析器。

如果您决定不使用Berkeley Aligner,您应该只使用GIZA ++。多年来,它在机器翻译社区中基本上是标准字对齐器。

答案 1 :(得分:2)

Uplug是一个很棒的工具,我一直用它来调整英语< - >马其顿文本。 它主要建立在Giza ++上,通过添加所谓的线索对齐。它的高级设置实际上结合了线索对齐和Giza ++,并执行了3次这样的迭代。更多的线索(pos-tags,lemmas ......)你提供的结果会更好。但是我必须提到你不应该期望通过使用Giza ++获得根本不同的结果。

无论如何,如果你打算认真研究SMT的话题,我建议你阅读关于Uplug的论文(博士论文),这对你非常有益。

答案 2 :(得分:0)

Moses是您可能想要查看的统计机器翻译套件。它的单词对齐组件是基于GIZA ++构建的,但可以调整为使用某些语言对比纯GIZA ++更好地工作。他们的邮件列表和您在http://www.statmt.org/上可以找到的资源也可能是比SO更好地提出有关此主题的问题的地方。有一件事你没有说什么,但我认为哪个更有问题的是在哪里得到一个平行的语料库印地语< - >英语。

答案 3 :(得分:-1)