查找音频中单词的时间戳

时间:2017-01-19 23:14:19

标签: audio synchronization alignment speech-recognition speech

我有一个人类语音的音频文件。音频长度约为1分钟。我想找到音频中说出的单词或短语的时间戳。

是否有任何现有的库可以完成任务?

1 个答案:

答案 0 :(得分:1)

至少有两种方法可以解决这个问题:语音识别和机器学习。哪种更合适取决于您的具体情况。

通过语音识别,您可以通过已建立的语音到文本识别器运行音频,并根据其与结果字符串开头的距离来评估单词的时间戳。通过机器学习,您可以为训练数据中的单词或短语生成音频建立模型,然后将测试音频切成合适的长度,并针对模型运行每个模型,以评估其成为您正在寻找的单词的可能性。

机器学习方法可能在时间戳方面更准确,但当然需要大量的训练数据来建立模型。