我正在speech recognition阅读本指南,并提到我需要三个语音识别项目:声学模型,语言模型,语音词典。
我想开始使用这个python demo,它使用Gstreamer从麦克风中捕获并重采样到8kHz,16位PCM音频。
我看到我可以指定语言模型和拼音字典,我使用[由cmu提供]:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Language%20Model/
但我很困惑我应该指定声学模型? gstreamer是否有我自己使用的声学模型?我希望使用这里提供的声学模型获得更好的结果:
http://sourceforge.net/projects/cmusphinx/files/Acoustic%20and%20Language%20Models/US%20English%20HUB4%20Acoustic%20Model/
(对不起超链接。我不能发布超过2个链接,代表少于10个)
答案 0 :(得分:3)
但我很困惑应该在哪里指定声学模型?
您可以使用gstreamer元素的hmm属性指定模型。就像教程
中所述asr.set_property('lm', '/home/user/mylanguagemodel.lm')
您可以使用
asr.set_property('hmm', '/home/user/acoustic_model_folder')
gstreamer是否有我自己使用的声学模型?
是的,默认情况下,它使用分发中的美国英语模型hub4wsj_sc_8k