Question

根据MALLET documentation，可以逐步训练主题模型：

“ - output-model [FILENAME]此选项指定要写入的文件序列化的MALLET主题教练对象。这种类型的输出是适合暂停和重新开始培训“

我想在一组数据上训练主题，然后使用不同的数据集增加模型。在两个训练步骤之后，我想为两个数据集输出状态（使用--output-state）。以下是我尝试这样做的方法：

# training on the first dataset
../mallet-2.0.7/bin/mallet import-dir --input input/ --keep-sequence --output input.mallet
../mallet-2.0.7/bin/mallet train-topics --input  input.mallet --num-topics 3 --output-state topic-state.gz --output-model model

# training on the second dataset
../mallet-2.0.7/bin/mallet import-dir --input input2/ --keep-sequence --output input2.mallet  --use-pipe-from input.mallet
../mallet-2.0.7/bin/mallet train-topics --input  input2.mallet --num-topics 3  --num-iterations 100 --output-state topic-state2.gz --input-model model

在最后一个命令中，如果我添加“--input-model model”，则第二个数据集中的数据不会出现在输出状态文件中。如果我不添加它，则第一个数据集中的数据不会出现在输出状态文件中。

如果我尝试在代码中向模型添加其他实例：

model.addInstances(instances);
model.setNumThreads(2);
model.setNumIterations(50);
model.estimate();

[...]

model.addInstances(instances2);
model.setNumThreads(2);
model.setNumIterations(50);
model.estimate();

我收到错误：

Exception in thread "main" java.lang.ArrayIndexOutOfBoundsException: 30
    at cc.mallet.topics.ParallelTopicModel.buildInitialTypeTopicCounts(ParallelTopicModel.java:364)
    at cc.mallet.topics.ParallelTopicModel.addInstances(ParallelTopicModel.java:276)
    at cc.mallet.examples.TopicModel2.main(TopicModel2.java:66)

以前在MALLET列表上有过类似的问题：http://permalink.gmane.org/gmane.comp.ai.mallet.devel/924，http://permalink.gmane.org/gmane.comp.ai.mallet.devel/2139

主题模型的增量培训是否可能？

Answer 1

我认为你是这个会话主题的一部分，现在可能对你有用。

http://comments.gmane.org/gmane.comp.ai.mallet.devel/2153

MALLET中主题模型的增量训练

1 个答案: