ARPA语言模型文档

时间:2013-05-06 22:14:09

标签: nlp speech-recognition cmusphinx sphinx4 language-model

在哪里可以找到有关ARPA语言模型格式的文档?

我正在使用pocket-sphinx STT引擎开发简单的语音识别应用程序。出于性能原因,建议使用ARPA。 我想了解我可以做多少来调整我的语言模型以满足我的自定义需求。

我发现的只是一些非常简短的ARPA格式描述:

我是STT的初学者,我很难绕过这个(n-gram等等)。我正在寻找更详细的文档。像这里的JSGF语法文档:

http://www.w3.org/TR/jsgf/

4 个答案:

答案 0 :(得分:5)

我发现此链接很有用:http://www.speech.sri.com/projects/srilm/manpages/ngram-format.5.html

它描述了n-gram又称ARPA又名Doug Paul格式。

答案 1 :(得分:3)

实际上没有什么比这些文档更多的说法了。

此外,您可能希望准备一个带有示例句子和generate the language file based on it的文本文件。有一个在线版本可以为您完成:lmtool

答案 2 :(得分:3)

您可以使用此技术报告补充这些文档,该报告全面概述了语言建模的平滑度:http://www.ee.columbia.edu/~stanchen/papers/h015a-techreport.pdf 您还可以找到退避模型和插值模型的定义。

答案 3 :(得分:0)

我可能回答得太晚了,我发现Steve Young et的 The HTK Book 中的link中充分记录了ARPA LM格式。

ARPA的每一行都是存储以下内容的三元组:

n-gram log-probability(base10) ; the n-gram itself ; back-off weight (also in log space).