认识到个人的声音

时间:2010-05-07 02:41:31

标签: signal-processing speech

我打算编写一个会话分析软件,它可以识别各个扬声器,它们的音高和强度。音高和强度有点简单(通过自相关的音高)。

我如何识别个别发言者,以便记录他/她的功能?为每个说话者的频率存储一些启发式算法是否足够?我可以假设一次只说一个人(严格来说不重叠)。我还可以假设,对于培训,每个发言者可以在实际分析之前记录一分钟的数据。

2 个答案:

答案 0 :(得分:2)

自己的投球和强度告诉你什么。你真的需要分析音调的变化。为了识别不同的扬声器,您需要将语音音频转换为某种 feature space ,然后与此功能空间中的扬声器数据库进行比较。您可能想要Google的一般术语是 prosody - 请参阅例如http://en.wikipedia.org/wiki/Prosody_(linguistics)。当您使用Google搜索时,您可能还想阅读 speaker identification 又名 speaker recognition ,请参阅例如http://en.wikipedia.org/wiki/Speaker_identification

答案 1 :(得分:0)

如果你还在研究这个......你是否在声音输入上使用语音识别?例如,Microsoft SAPI为应用程序提供了丰富的API,用于挖掘语音声波,这可能使说话人识别问题更容易处理。我想你可以在波形中获得音素位置。例如,这可以让您对元音进行功率谱分析,这可以用来生成区分扬声器的功能。 (在任何人开始嘀咕音高和音量之前,请记住,共振峰曲线来自声道形状并且相当独立于音调,这是声带频率,并且共振峰的相对位置和相对振幅是相对的! )与总体积无关。)语境中的音素持续时间也可能是一个有用的特征。 “n”声中的能量分布可以提供“鼻音”特征。等等。只是一个想法。我希望自己能在这个领域工作。