尝试使用谷歌语音(文本)api确定发言者的流畅度。
到目前为止,我发现api(betav1)可以显示说出单词的时间(开始时间和结束时间)。
来自维基百科,
口语流利或说流利是衡量生产的标准 和言语的接受,作为一个流利的演讲者必须能够 在谈话中理解并回应他人。口语是 通常以看似不流畅的品质为特征(例如, 碎片,停顿,错误开始,犹豫,重复)因为 '任务压力',因此可以理解口头流利的 在感知方面,以及这些演讲的质量是否可以 被认为是预期的和自然的(即流利的)或不寻常的 有问题的(即不流利的)
我可以看到我们可以从一个单词的api中获得暂停,重复等。但是相对测量可能很难,因为我找不到任何标准值。
有没有正确的方法来实现这一目标?任何人都可以给出一个指南来检测谷歌api的流畅性(或使用一些开源语音库或外部软件的任何其他有效方法)
如果我走向完全错误的方向,那就完全没问题了,只需要一个合适的指导来实现这个功能。
答案 0 :(得分:0)
这实际上取决于您拥有的数据。我不熟悉谷歌文本到语音 API。但是,根据数据的结构,有一些替代选项可以实现您想要的目标。
如果数据是结构化的(即词和与这些词的属性相对应的值的表),您可以运行分类(或回归)算法,例如随机森林或多元逻辑回归来估计度流利程度(连续量表)或流利类别(例如非常流利、有点流利、正常、有点流利、非常流利)。
如果数据是非结构化的(例如一个短语的录音) - 那么你可以在 keras/tensorflow 中尝试一个神经网络,旨在将不同的短语分类为流利的或不流利的。