我正在语音信号处理领域,我想从音频文件中检测元音和辅音并为其加上时间标记。
我想要诸如(只是示例,不确定其工作原理):
使用单词完成: D [0-3 ms], o [4-7 ms], n < / strong> [8-11毫秒]和 e [12-13毫秒]。
我认为我正面临某种分类问题,我考虑使用支持向量机或隐马尔可夫模型或 Recurcurant神经网络
有关如何操作,元音或辅音检测,时间标记的任何建议。
可能我会使用MATLAB。你怎么看?
谢谢。
答案 0 :(得分:0)
以防万一,您更喜欢使用HMM,我的建议是使用HTK(隐藏的markov工具包),其中有一个精确/详细的教程,但是它使用C(ANSI)。使用HMM时,您必须首先训练HMM(在有监督的情况下),当然,您需要完整的音素/标记为train / examples的标签。最后,您需要做的是所谓的音素识别,以识别其他人的语音/测试音频。之后,每个被识别的音素/标签的持续时间可以在被HTK识别后计算出来。