语音聚类的聚类算法

时间:2020-03-06 07:10:36

标签: python algorithm machine-learning deep-learning data-science

我们可以在语音域中使用的最佳群集方法是什么?

例如,如果我们有来自多个扬声器的语音,我们需要将它们聚类到特定的篮子中,其中每个篮子对应一个扬声器。为此,我们可以使用的最佳聚类算法是什么?

1 个答案:

答案 0 :(得分:2)

我建议使用 RNN-LSTM。有一个很好的教程解释了使用这个神经网络的音乐类型分类。我看过它,很容易理解:

  1. 首先,您必须了解您的音频数据(看看here)。在此链接中,他解释了 MFCC(梅尔频率倒谱系数),它允许您将音频数据的特征提取到频谱图中。在下图中,MFCC 的每个幅度代表音频的一个特征(例如说话者语音的特征)。 Each amplitude of the MFCC represents a feature of the audio (e.g. features of the speaker voice)
  2. 然后您必须预处理用于分类的数据(实际示例here
  3. 然后训练您的神经网络以预测音频属于哪个说话者。他展示了here,但我建议您观看整个系列。我认为这是我见过的关于这个主题的最好的文章,提供了解决此类说话人分类问题所需的所有背景、代码和数据集。

希望您喜欢这些链接,它们确实帮助了我,并且肯定会解决您的问题。

相关问题