signal-processing - 认识到个人的声音

认识到个人的声音

时间：2010-05-07 02:41:31

标签： signal-processing speech

我打算编写一个会话分析软件，它可以识别各个扬声器，它们的音高和强度。音高和强度有点简单（通过自相关的音高）。

我如何识别个别发言者，以便记录他/她的功能？为每个说话者的频率存储一些启发式算法是否足够？我可以假设一次只说一个人（严格来说不重叠）。我还可以假设，对于培训，每个发言者可以在实际分析之前记录一分钟的数据。

2 个答案:

答案 0 :(得分：2)

自己的投球和强度告诉你什么。你真的需要分析音调的变化。为了识别不同的扬声器，您需要将语音音频转换为某种 feature space ，然后与此功能空间中的扬声器数据库进行比较。您可能想要Google的一般术语是 prosody - 请参阅例如http://en.wikipedia.org/wiki/Prosody_(linguistics)。当您使用Google搜索时，您可能还想阅读 speaker identification 又名 speaker recognition ，请参阅例如http://en.wikipedia.org/wiki/Speaker_identification

答案 1 :(得分：0)

如果你还在研究这个......你是否在声音输入上使用语音识别？例如，Microsoft SAPI为应用程序提供了丰富的API，用于挖掘语音声波，这可能使说话人识别问题更容易处理。我想你可以在波形中获得音素位置。例如，这可以让您对元音进行功率谱分析，这可以用来生成区分扬声器的功能。（在任何人开始嘀咕音高和音量之前，请记住，共振峰曲线来自声道形状并且相当独立于音调，这是声带频率，并且共振峰的相对位置和相对振幅是相对的！）与总体积无关。）语境中的音素持续时间也可能是一个有用的特征。 “n”声中的能量分布可以提供“鼻音”特征。等等。只是一个想法。我希望自己能在这个领域工作。