google-cloud-platform - 如何在语音识别中正确识别语音中的犹豫

我在语音识别方面遇到了一个异常问题。我目前正在帮助开发用于语音转录的自动工具神经认知实验室的反应。该任务包括命名图片-每张图片都需要给出一个单词的答案，并且保存在单独的.wav文件中。

我正在使用GoogleCloud语音文本API。我用Python编写了一个脚本，它的工作原理很好，甚至还不错。

这里的问题是，我需要一个非常具体的记录，指出人们在提供最终答案之前所发出的任何其他“噪音”（例如，犹豫：“ eeee-cat”，改正自己：“ poli-postman”）。从项目的角度来看，在给出正确答案之前所说的内容并不是很重要，但在做出回答之前，该人犹豫或犯了一个错误。 GoogleCloud自动“纠正”说话者，“猜测”预期的答案（从而省去了其他声音或音节）在适当的反应开始之前。

我试图使用enable_word_confidence和max_alternatives来识别有问题的单词（较低的置信度和较高的替代数量，这是一个问题的标记），但没有帮助。我在堆栈溢出中看到了类似的问题：

How to disable sentence-level auto correction in Google Cloud Speech-to-Text API

但是我不确定是否可以实施针对我的案例的建议。

您知道通过使用Google Cloud（或其他云/解决方案/程序）的其他功能在哪里寻找解决方案吗？

提前谢谢！

如何在语音识别中正确识别语音中的犹豫

0 个答案: