Pocketsphinx建立小词汇模型

时间:2020-01-27 11:33:43

标签: model cmusphinx pocketsphinx

我想为Pocketsphinx(.lm)用德语建立一个小的词汇模型,该模型只能识别0-9之间的德语数字。使用Voxforge de-de模型时,性能非常差(几乎无法识别)。我用类似的英语方法尝试了TIDIGTS-使用仅包含数字的专用模型。这一工作正常。因此,显然我需要构建一个仅包含我的数字的.lm模型-为此,我已经记录了很多wav文件并将其转录为所需的XML格式。但是,当我查看https://cmusphinx.github.io/wiki/tutoriallm/的操作方法时,只会得到关于如何建立具有大量词汇的语言模型或如何基于SRILM进行构建的提示-由于限制性许可,这对于我来说完全没有用。那么,如何根据我的wav数据构建LM?

1 个答案:

答案 0 :(得分:1)

好,这就是我所做的:我使用了通用的德国模型(来自voxforge.com的模型),使用sphinx_lm_convert将.lm.bin转换为.lm文件,然后编辑了除所需数字以外的所有内容。然后,我使用录制的音频资料来使用sphinxtrain修改模型(使用sphinx_fe,bw,map-adapt)。现在,它是相对可靠的(大约80%的识别率)。我还通过用拒绝词(在我的情况下为FALSE)修改语法和字典来实现误报否定,这也达到了70%。

相关问题