在python stderr输出中了解LDA Mallet gensim包装器

时间:2018-09-10 04:06:33

标签: python gensim lda mallet

我试图弄清Mallet生成的LDA主题模型的困惑,以便确定我应该使用多少次迭代来生成模型。

由于一致性得分似乎与迭代次数不太吻合,因此我想用困惑度作为确定这一点的方法。 (我在1次迭代中获得了最高分)

我生成了包含250个主题的模型,并尝试了50、100,然后200次迭代。

根据我的理解,Mallet在stderr中以格式

输出困惑。
<10> LL/token: -8.95177

困惑度为2 ^(-(-8.95177))。但是,当我运行模型时,它会多次输出这些行,就像这样

<160> LL/token: -8.09511
<170> LL/token: -8.06192
<180> LL/token: -8.05979
<190> LL/token: -8.0331

我试图弄清楚< >中的数字是什么意思,也想弄清楚分别由50、100和200次迭代生成的模型的最终困惑。我如何找到这个?

0 个答案:

没有答案