Google Speech-to-Text API:缺少或缺乏语音识别信心

时间:2019-03-11 20:34:55

标签: python speech-recognition text-to-speech speech google-speech-api

我正在使用Google API进行语音识别。

我正在使用2.5秒的音频样本。在下面,您可以看到省略了置信度的输出示例:

  

{u'替代':[{u'transcript':如果卡罗尔明天要来,你有一个'},{u'transcript':u'如果卡罗尔明天就来了,永远'},{u'transcript':u '如果明天要来的卡洛尔有一个'},{u'transcript':u'如果明天要来的Carole有a'},{u'transcript':u'如果明天要来的有a'},{u'transcript': u'如果卡洛尔明天来了'},{u'transcript':u'如果女孩明天来了,有一个'},{u'transcript':你是卡洛尔明天来了,有一个'},{u'transcript': u'if明天来电话有'',{u'transcript':u'Carol明天来电话有'},{u'transcript':u'如果kevin明天来电话有'',{u'transcript': u'如果卡洛尔明天来有'},{u'transcript':u'如果韩国明天来有a'},{u'transcript':u'如果卡洛尔明天来有a'},{u'transcript': u'如果明天要哭泣,有a'}],u'final':是真的

原始样本在末尾被部分切割,但可以肯定地说: “如果卡罗尔明天要来,那就去...”

在95%的情况下,我仅获得第一句话的置信度值,所有替代项均被省略:

  

{u'alternative':[{u'confidence':0.91297865,u'transcript':到那时u也许可以更好一些”,},{u'transcript':那时到u'也许更好的东西来了'},{u'transcript':那时u也许会更好一些Kim'},{u'transcript':那时u可能会更好一些,'},{u'transcript':那时u'也许会有更好的结果'}],最后一次:正确}

这里的句子是:“到那个时候也许会有更好的东西”。因此,第一次转录非常准确。

以防万一,这就是我在Python中运行评估的方式:

import speech_recognition as sr
from scipy.io import wavfile

r = sr.Recognizer()
with sr.WavFile(target0_path) as source:
    audio = r.record(source)
list = r.recognize_google(audio, None, "en-US", True)

您有什么想法或建议吗?我可以使用任何特殊设置来避免此问题吗?

0 个答案:

没有答案