我正在使用Google API进行语音识别。
我正在使用2.5秒的音频样本。在下面,您可以看到省略了置信度的输出示例:
{u'替代':[{u'transcript':如果卡罗尔明天要来,你有一个'},{u'transcript':u'如果卡罗尔明天就来了,永远'},{u'transcript':u '如果明天要来的卡洛尔有一个'},{u'transcript':u'如果明天要来的Carole有a'},{u'transcript':u'如果明天要来的有a'},{u'transcript': u'如果卡洛尔明天来了'},{u'transcript':u'如果女孩明天来了,有一个'},{u'transcript':你是卡洛尔明天来了,有一个'},{u'transcript': u'if明天来电话有'',{u'transcript':u'Carol明天来电话有'},{u'transcript':u'如果kevin明天来电话有'',{u'transcript': u'如果卡洛尔明天来有'},{u'transcript':u'如果韩国明天来有a'},{u'transcript':u'如果卡洛尔明天来有a'},{u'transcript': u'如果明天要哭泣,有a'}],u'final':是真的
原始样本在末尾被部分切割,但可以肯定地说: “如果卡罗尔明天要来,那就去...”
在95%的情况下,我仅获得第一句话的置信度值,所有替代项均被省略:
{u'alternative':[{u'confidence':0.91297865,u'transcript':到那时u也许可以更好一些”,},{u'transcript':那时到u'也许更好的东西来了'},{u'transcript':那时u也许会更好一些Kim'},{u'transcript':那时u可能会更好一些,'},{u'transcript':那时u'也许会有更好的结果'}],最后一次:正确}
这里的句子是:“到那个时候也许会有更好的东西”。因此,第一次转录非常准确。
以防万一,这就是我在Python中运行评估的方式:
import speech_recognition as sr
from scipy.io import wavfile
r = sr.Recognizer()
with sr.WavFile(target0_path) as source:
audio = r.record(source)
list = r.recognize_google(audio, None, "en-US", True)
您有什么想法或建议吗?我可以使用任何特殊设置来避免此问题吗?