如何使用python使用CTC标记未分段的序列语音(wav文件)数据?

时间:2019-07-15 00:10:17

标签: deep-learning speech-recognition recurrent-neural-network speech-to-text ctc

您好,热情的软件开发人员, 我是语音识别(语音到文本)领域的新手,目前,我正在研究一个项目,我正在使用Mozilla通用语音数据集(德语语音数据集)-https://voice.mozilla.org/en。我从Mozilla的tsv文件集中获得了未分段的序列数据(mp3文件),其中包括声音文件的文本语句。现在,我计划实现CTC标签,以使声音文件与相应的文本句子匹配(这意味着每个字符(不是每个单词!)都需要与其在音频文件中的位置对齐)。如何使用python实施CTC标签?还是我可以在项目中学习和实施类似的方案? 在此先感谢!

0 个答案:

没有答案