Question

我正在尝试使用gensim训练文本的编码。我运行文本超过5000次迭代（文档长约250,000字，Gensim训练超过7500个频繁的单词），每次迭代的总计训练损失从那时的约800,000减少到4,000。也就是说，在绘制时，很明显培训提前结束，进一步培训可以减少损失。但是，当我加载回保存的模型并运行训练时：

model = Word2Vec.load("encodings")
model.train(lines, total_examples=model.corpus_count, epochs=model.iter, compute_loss=True, callbacks=[logLoss, saveModel])

训练似乎从头开始，初始训练错误约为800,000，并减少到4,000。我使用model.save("encodings")保存模型，并且保存的模型似乎至少部分训练为单词矢量相似性似乎有些合理。我想进一步训练我的编码，但这不起作用。（注意，最初训练我的编码时间更长，即。iter=10000并没有改善我的损失（从800,000开始到4,000结束）。在这段延长的时间内减少初始alpha或min_alpha也无济于事初始培训是：

model = Word2Vec(lines, min_count=2, size=300, workers=8, sg=1, iter=5000, compute_loss=True, callbacks=[logLoss, saveModel])

Gensim恢复训练从头开始训练

0 个答案: