speech-recognition - Microsoft语音平台 - 采样率和位深度

时间：2013-08-09 08:07:46

标签： speech-recognition sampling wave microsoft-speech-platform

如果音频的采样率和比特深度与系统的训练数据匹配，则识别结果最佳。

那么，有没有人知道Microsoft Speech Platform中使用的确切采样率和/或位深度（和/或立体声/单声道）（最新的，如果这很重要）？如果是这样，你还记得你从哪里获得这些信息吗？

请注意我使用的是MS语音平台，而不是SAPI。除非两者都使用相同的训练数据，否则这不是相同的AFAIK。确切地说 - 我用这个： http://msdn.microsoft.com/en-us/library/microsoft.speech.recognition.speechrecognitionengine.setinputtowavefile%28v=office.14%29.aspx

我的第一次尝试是基于页面上给出的C ++代码示例。

答案 0 :(得分：0)

Microsoft.Speech SR引擎不需要培训（unlike the System.Speech SR engine），并且对采样率相对不敏感（可以使用任何> 8 KHz的采样率）。首选16位音频，但我相信它将使用8位音频。

答案 1 :(得分：0)

我无法找到有关采样率的任何信息，但似乎位深度实际上是8位（自Eric Brown's answer以来可能已经发生了变化）。

引自this page列出支持的音频格式：

语音平台下采样大于8位的音频分辨率。

你应该没有任何比特深度是8位的倍数（无论如何总是这样），因为由于舍入而没有精度损失（并且没有样本的分辨率，不像样本率）。