Lingpipe中的EM软聚类

时间:2013-04-24 02:20:44

标签: em unsupervised-learning

在Lingpipe的EM教程中,他们说可以在没有监督数据的情况下运行算法:

  

通过使初始分类器随机分配类别,可以以完全无监督的方式训练分类器。只需要修复类别数量。算法完全相同,收敛后的结果或最大历元数是分类器。

但是他们的班级TradNaiveBayesClassifier需要一个标签和一个未标记的语料库来运行。如何修改它以便在没有标记数据的情况下运行?

1 个答案:

答案 0 :(得分:0)

EM是概率最大似然优化算法。通常,它适用于无监督算法(用于聚类),例如PLSA,高斯混合模型。

我认为linepipe doc说你可以使用所有数据标签的随机初始化(每个数据的标签分布),然后输入NB来计算ELBO(证据下限),然后最大化它以获得更新参数。

简而言之,您需要使用NB来编写M步骤---更新模型参数。