语料库必须有多大才能为Sphinx创建语言模型?

时间:2011-07-15 07:25:39

标签: voice-recognition sphinx4

我想知道为了获得一个良好的域语言模型并在语音识别工具(如CMU Sphinx)中使用它需要处理多少文档,句子或单词。

2 个答案:

答案 0 :(得分:2)

要为小域创建一个不错的语言模型,通常就足以拥有大约100 MB的文本。您可以将它们与通用语言模型混合使用,以更好地概括语言模型。

要创建通用语言模型,开发人员使用非常大的语料库。例如,有一个Google 1TB语料库,其中包含数百万个单词和数TB的数据。它的三元组部分是大约40Gb的二元组计数,但它必须是一百兆字节的文本。

答案 1 :(得分:0)

加入尼古拉的回答:

这不是一项微不足道的任务。生成语言模型是一项耗费时间和资源的任务。

如果你想拥有一个“好”的语言模型,你需要一个大的或非常大的文本语料库来训练一个语言模型(想想几年华尔街日记文本的数量级)。

“好”意味着:如果语言模型能够从训练数据推广到新的和以前看不见的输入数据

您应该查看Sphinx和HTK语言模型工具包的文档。

请检查以下两个主题:

Building openears compatible language model

Ruby Text Analysis

你可以采用更通用的语言模型,基于更大的语料库并用它来插入你的小语言模型......例如一个后退语言模型......但这不是一项微不足道的任务。

请参阅:http://en.wikipedia.org/wiki/Katz's_back-off_model