将ngrams计数文件转换为ARPA格式

时间:2015-08-02 13:42:09

标签: speech-recognition n-gram language-model srilm

我想将所有n-gram文件转换为一个ARPA文件。它将用作语音识别的语言模型。

我有不同的n-gram文件,2克,3克和4克。以2克文件为例

two grams -- frequency similar degree 32 Writing writes 1 towars their 3 country feature 1 like gold 446 like golf 64

我怎样才能做到这一点?

1 个答案:

答案 0 :(得分:1)

在srilm包中,将计数转换为arpa的命令是:

  ngram-count -read file.counts -lm file.lm

当这样做时,您只需要最大订单计数文件,因此不需要2克,因为从高阶计数重新计算低阶数。

Here你可以找到ngram-count的详细文档。