我计划启动一个应用程序,将语音转换为Linux中的文本。 是否有任何现有的接口,以便我可以扩展它们? 或者Linux中是否有这样的现有应用程序? 对此有任何意见吗?
编辑:我打算写的应用程序应该能够将我们说的每个单词转换为文本,而不仅仅是是/否。
答案 0 :(得分:8)
嗯,这是一项非常艰巨的任务,不用说你想要使用什么技术,这里有一些链接:
答案 1 :(得分:3)
戴夫的建议是一个很好的开始。狮身人面像很漂亮。
我只想补充一点,你应该尽可能地保持概率。作为一次性语言学家,甚至是早期的一次性音韵学家,我可以自信地说,不要陷入语言模型。让我们不要忘记经常被误导的“每次我解雇语言学家时我的准确性都会上升”。这真的是关于模型及其解决噪音和变异的能力,而不是麻省理工学院的文科专业所说的任何内容。
一本好书可以选择Jurafsky和Martin的“言语和语言处理”。它有一些非常有用的计算模型应用程序。哈维·苏斯曼(Harvey Sussman)在F2斜坡上对各种元音的线性相关研究(从谷仓猫头鹰开始并向人类发展)似乎在这些日子的模型中实施是一件好事。
答案 2 :(得分:3)
Julius也是Linux的好选择
答案 3 :(得分:1)
Sphinx是你在linux上最好的选择。我尝试过Sphinx II和Sphinx III。有一些开源语言和声学模型可用于它们中的每一个。根本不是生产级别的性能,但足以用于原型设计或演示。对于制作,您需要开发自己的语言和声学模型。