如何使用机器学习从音频剪辑中提取人声?

时间:2014-03-07 11:47:48

标签: machine-learning speech-recognition curve-fitting speech-to-text speech

我们如何利用机器学习从音频片段中获取人声,这可能会在整个频域上产生很多噪音。

1 个答案:

答案 0 :(得分:2)

与任何ML应用程序一样,过程很简单:收集样本,设计特征,训练分类器。对于样本,您可以使用嘈杂的录音,或者您可以在网络声音集合中找到很多噪音,如freesound.org。对于这些功能,您可以使用均值归一化的mel频率系数,您可以在CMUSphinx speech recognition toolkit中找到实现。对于分类器,您可以选择GMM或SVM。如果你有足够的数据,它将运作得相当好。

为了提高准确度,您可以添加噪声和语音连续的假设,因此您可以使用宿醉方案(基本上是HMM)分析检测历史记录,以检测语音块,而不是单独分析每个帧。