nlp - 如何测试文本群集应用程序？

1.训练之后，我们得到主题词矩阵P（z | w），每一行都是单词的主题分配，所以你可以打印出每个主题的前N个单词，并评估它们，它将eval主题与文档

进行比较会很容易

2.我认为你在这里问的问题是训练是否收敛，我只是评估P（z | w），当P（z | w）稳定时，它意味着模型收敛于参数（ alpha，beta，topic_num）我们选择。当我们调整主题num时，我们可以得到所有topic_num的稳定P（z | w），我们选择topic_num相对于max P（z | w）。你可以参考论文 http://psiexp.ss.uci.edu/research/papers/sciencetopics.pdf

3.如何调整alpha beta，以及调整topic_num的有效方法，Hanna M. Wallach对此做了大量研究，我只是凭直觉做到这一点，因为数据集太大http://people.cs.umass.edu/~wallach/

如何测试文本群集应用程序？

1 个答案: