Microsoft语音平台 - 采样率和位深度

时间:2013-08-09 08:07:46

标签: speech-recognition sampling wave microsoft-speech-platform

如果音频的采样率和比特深度与系统的训练数据匹配,则识别结果最佳。

那么,有没有人知道Microsoft Speech Platform中使用的确切采样率和/或位深度(和/或立体声/单声道)(最新的,如果这很重要)?如果是这样,你还记得你从哪里获得这些信息吗?

请注意我使用的是MS语音平台,而不是SAPI。除非两者都使用相同的训练数据,否则这不是相同的AFAIK。确切地说 - 我用这个: http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的C ++代码示例。

2 个答案:

答案 0 :(得分:0)

Microsoft.Speech SR引擎不需要培训(unlike the System.Speech SR engine),并且对采样率相对不敏感(可以使用任何> 8 KHz的采样率)。首选16位音频,但我相信它将使用8位音频。

答案 1 :(得分:0)

我无法找到有关采样率的任何信息,但似乎位深度实际上是8位(自Eric Brown's answer以来可能已经发生了变化)。

引自this page列出支持的音频格式:

  

语音平台下采样大于8位的音频   分辨率。

你应该没有任何比特深度是8位的倍数(无论如何总是这样),因为由于舍入而没有精度损失(并且没有样本的分辨率,不像样本率)。

相关问题