从谷歌语音api结果中检测流畅度

时间:2018-04-25 11:10:40

标签: speech-recognition speech google-speech-api

尝试使用谷歌语音(文本)api确定发言者的流畅度。

到目前为止,我发现api(betav1)可以显示说出单词的时间(开始时间和结束时间)。

来自维基百科,

  口语流利或说流利是衡量生产的标准   和言语的接受,作为一个流利的演讲者必须能够   在谈话中理解并回应他人。口语是   通常以看似不流畅的品质为特征(例如,   碎片,停顿,错误开始,犹豫,重复)因为   '任务压力',因此可以理解口头流利的   在感知方面,以及这些演讲的质量是否可以   被认为是预期的和自然的(即流利的)或不寻常的   有问题的(即不流利的)

我可以看到我们可以从一个单词的api中获得暂停,重复等。但是相对测量可能很难,因为我找不到任何标准值。

有没有正确的方法来实现这一目标?任何人都可以给出一个指南来检测谷歌api的流畅性(或使用一些开源语音库或外部软件的任何其他有效方法)

如果我走向完全错误的方向,那就完全没问题了,只需要一个合适的指导来实现这个功能。

1 个答案:

答案 0 :(得分:0)

这实际上取决于您拥有的数据。我不熟悉谷歌文本到语音 API。但是,根据数据的结构,有一些替代选项可以实现您想要的目标。

  1. 如果数据是结构化的(即词和与这些词的属性相对应的值的表),您可以运行分类(或回归)算法,例如随机森林或多元逻辑回归来估计度流利程度(连续量表)或流利类别(例如非常流利、有点流利、正常、有点流利、非常流利)。

  2. 如果数据是非结构化的(例如一个短语的录音) - 那么你可以在 keras/tensorflow 中尝试一个神经网络,旨在将不同的短语分类为流利的或不流利的。