speech-recognition - 从谷歌语音api结果中检测流畅度

尝试使用谷歌语音（文本）api确定发言者的流畅度。

到目前为止，我发现api（betav1）可以显示说出单词的时间（开始时间和结束时间）。

来自维基百科，

口语流利或说流利是衡量生产的标准和言语的接受，作为一个流利的演讲者必须能够在谈话中理解并回应他人。口语是通常以看似不流畅的品质为特征（例如，碎片，停顿，错误开始，犹豫，重复）因为 '任务压力'，因此可以理解口头流利的在感知方面，以及这些演讲的质量是否可以被认为是预期的和自然的（即流利的）或不寻常的有问题的（即不流利的）

我可以看到我们可以从一个单词的api中获得暂停，重复等。但是相对测量可能很难，因为我找不到任何标准值。

有没有正确的方法来实现这一目标？任何人都可以给出一个指南来检测谷歌api的流畅性（或使用一些开源语音库或外部软件的任何其他有效方法）

如果我走向完全错误的方向，那就完全没问题了，只需要一个合适的指导来实现这个功能。

从谷歌语音api结果中检测流畅度

1 个答案: