BLEU得分的变化

时间:2017-06-02 08:52:25

标签: machine-learning translation metrics evaluation bleu

我对机器翻译的BLUE Score计算有一些疑问。我意识到他们可能有不同的BLEU指标。我发现代码报告了BLEU的五个值,即BLEU-1,BLEU-2,BLEU-3,BLEU-4以及最后的BLEU,它们似乎是前四个BLEU的指数平均值。我还不清楚它们之间的区别是什么。你有什么想法?感谢

P.S。起初我认为这个question更多的是理论内容并将其发布在meta stackexange上。主持人已关闭并将其评论为stackoverflow类型问题。所以请不要再惩罚我。 =)

2 个答案:

答案 0 :(得分:5)

来源:http://www.statmt.org/book/slides/08-evaluation.pdf

我没有听说过BLEU-1和BLEU-2,但我想这意味着在BLEU得分的公式中1克,2克,3克和4克,我的意思是在公式{{ 1}}在你的问题中:
enter image description here

答案 1 :(得分:0)

实际上,BLEU-n不仅仅使用n-gram分数。它计算1克到n克的分数,并给予它们相等的权重来计算最终分数。有关详细信息,请参阅this link处的“累积N-Gram分数”部分。