除了谷歌还有任何语音识别API可以返回中期结果吗?

时间:2015-09-30 20:53:26

标签: speech-recognition speech-to-text cmusphinx ibm-watson google-speech-api

我正在寻找能够在用户发言时返回中间结果的语音识别API,类似于Google在其主页上所做的那样(https://www.google.com)。我正在寻找支持法语的API。我想要做的是创建一个与Google人声搜索类似的Web应用程序。

  • 不建议将Google Speech API用于专业开发,因为它经常更改,并且没有完整记录。
  • IBM Watson不支持法语
  • AT& T Speech API不会返回中期结果
  • CMU Sphinx返回非常糟糕的结果(请参阅此处的演示:http://syl22-00.github.io/pocketsphinx.js/live-demo.html
  • Nuance产品似乎不适用于Web应用程序。 (如果你知道我该怎么做才能使用它们,我很感兴趣!)

2 个答案:

答案 0 :(得分:2)

Cortana和Skype Translator使用的Microsoft Project Oxford Speech Recognition API符合您的两个标准:它支持法语(和其他6种语言),并在您向其传输音频时返回部分/临时/在线假设。

(顺便说一下,在使用Pocketsphinx进行在线识别时导致严重准确性的常见问题是错误的CMN​​(倒谱均值归一化)。当你给pocketphinx一个完整的音频处理时,它会在整个话语上计算CMN,但是当你向它传输音频时,它默认不会计算CMN。一种解决方案是给它一个完整的话语,检索由pocketsphinx计算的CMN,然后将那个CMN用于流音频。注意每个音频的CMN是不同的通道/环境,并且pocketphinx的Python接口不提供CMN数据的接口。如果这是您想要调查的路线,我有一个补丁。)

答案 1 :(得分:1)

许多语音到文本应用程序使用Nuance Communications开发的语音识别技术。适用于Web应用程序的SDK是Server SDK,它支持将流式音频转换为文本。除英语和德语外,它还支持法语。要使用它,您可能需要通过AJAX请求将音频输入流式传输到将要处理它的服务器,然后从AJAX请求接受文本作为XMLHTTPResponse。

相关问题