python - 语音聚类的聚类算法 - Thinbug

语音聚类的聚类算法

时间：2020-03-06 07:10:36

标签： python algorithm machine-learning deep-learning data-science

我们可以在语音域中使用的最佳群集方法是什么？

例如，如果我们有来自多个扬声器的语音，我们需要将它们聚类到特定的篮子中，其中每个篮子对应一个扬声器。为此，我们可以使用的最佳聚类算法是什么？

1 个答案:

答案 0 :(得分：2)

我建议使用 RNN-LSTM。有一个很好的教程解释了使用这个神经网络的音乐类型分类。我看过它，很容易理解：

首先，您必须了解您的音频数据（看看here）。在此链接中，他解释了 MFCC（梅尔频率倒谱系数），它允许您将音频数据的特征提取到频谱图中。在下图中，MFCC 的每个幅度代表音频的一个特征（例如说话者语音的特征）。
然后您必须预处理用于分类的数据（实际示例here）
然后训练您的神经网络以预测音频属于哪个说话者。他展示了here，但我建议您观看整个系列。我认为这是我见过的关于这个主题的最好的文章，提供了解决此类说话人分类问题所需的所有背景、代码和数据集。

希望您喜欢这些链接，它们确实帮助了我，并且肯定会解决您的问题。