speech - 具有预训练数据集的自动语音识别器

时间：2013-06-05 11:17:47

标签： speech

我想要一个带有训练平台的自动语音识别器，即语音模块。例如： - 我有两个非常相似的词，所以系统必须听取完整的单词和任何dilax，并验证它并给出输出。

怎么做。

我已经搜索过，但在这一点上我完全是空白。

答案 0 :(得分：0)

您想使用哪种技术？那里有不同的框架，例如.fly项目的Dragonfly框架（https://code.google.com/p/dragonfly）或System.Speech.Recognition名称空间。对于移动设备，您可以仔细查看Google提供的语音识别API。

答案 1 :(得分：0)

从这个角度来看，使用Android语音识别API进行微调是不可能的。你可能需要从头开始做这个..

如果您想继续使用谷歌语音识别API，那么您需要进行后期处理......这称为NLU（自然语言理解）或NLP（自然语言处理）。

简单的概念是无论STT（语音到文本）结果来自谷歌API，你需要将它们分组成一个最终输出。你有什么不同的口音或语调成为一体。或者当需要一些内容来理解并做一些像首尔的天气这样的行动时，这个过程有价值吗？

回到你的问题，用于区分相似发音词的微调需要有AM（声学模型）和LM（语言模型），其被训练了相应地设置了各种单词。因此，您需要从头开始训练模型，或者使用现有模型，声学模型适应也将起作用。

开源的良好起点是HTK或Sphinx。如果您有预算购买，那么AT＆amp; T的沃森是迄今为止语音识别领域的最佳工具。

答案 2 :(得分：0)

我认为你应该采取不同的方法，这比试图让Sphinx工作更简单。

使用像soundEx这样的语音匹配算法来查找用户是否更有可能说出一个词或另一个词。我会修改soundEx算法，以便更容易匹配字符串。如果你的话语不同就应该做得很好。