Question

我正在使用Google API进行语音识别。

我正在使用2.5秒的音频样本。在下面，您可以看到省略了置信度的输出示例：

{u'替代'：[{u'transcript'：如果卡罗尔明天要来，你有一个'}，{u'transcript'：u'如果卡罗尔明天就来了，永远'}，{u'transcript'：u '如果明天要来的卡洛尔有一个'}，{u'transcript'：u'如果明天要来的Carole有a'}，{u'transcript'：u'如果明天要来的有a'}，{u'transcript'： u'如果卡洛尔明天来了'}，{u'transcript'：u'如果女孩明天来了，有一个'}，{u'transcript'：你是卡洛尔明天来了，有一个'}，{u'transcript'： u'if明天来电话有''，{u'transcript'：u'Carol明天来电话有'}，{u'transcript'：u'如果kevin明天来电话有''，{u'transcript'： u'如果卡洛尔明天来有'}，{u'transcript'：u'如果韩国明天来有a'}，{u'transcript'：u'如果卡洛尔明天来有a'}，{u'transcript'： u'如果明天要哭泣，有a'}]，u'final'：是真的

原始样本在末尾被部分切割，但可以肯定地说： “如果卡罗尔明天要来，那就去...”

在95％的情况下，我仅获得第一句话的置信度值，所有替代项均被省略：

{u'alternative'：[{u'confidence'：0.91297865，u'transcript'：到那时u也许可以更好一些”，}，{u'transcript'：那时到u'也许更好的东西来了'}，{u'transcript'：那时u也许会更好一些Kim'}，{u'transcript'：那时u可能会更好一些，'}，{u'transcript'：那时u'也许会有更好的结果'}]，最后一次：正确}

这里的句子是：“到那个时候也许会有更好的东西”。因此，第一次转录非常准确。

以防万一，这就是我在Python中运行评估的方式：

import speech_recognition as sr
from scipy.io import wavfile

r = sr.Recognizer()
with sr.WavFile(target0_path) as source:
    audio = r.record(source)
list = r.recognize_google(audio, None, "en-US", True)

您有什么想法或建议吗？我可以使用任何特殊设置来避免此问题吗？

Google Speech-to-Text API：缺少或缺乏语音识别信心

0 个答案: