python - 如果对文档进行培训并仅对句子进行推断，doc2vec是否有用

每个语料库和项目目标都不同。您对较大文档进行培训但随后在较短句子上进行推断的方法可能合理，但您必须尝试查看效果如何，然后迭代测试是否可能更短的培训文档（如单句或句组）更好地工作，为了您的具体目标。

请注意，gensim Doc2Vec推断通常会从非默认参数中获得 - 尤其是steps（小于默认值5）或较小的起始alpha（更像是训练默认值为0.025），尤其是在较短的文档上。并且，根据原始模型元参数，该推断也可能更好或更差。

另请注意，实施限制意味着在gensim Word2Vec / Doc2Vec培训中会自动截断超过10,000个令牌的文本。（如果你有更长的文档，你可以将它们拆分成不到10K的令牌子文档，但是然后为每个子文档重复tags，以密切模拟使用较长文档的训练效果。）< / p>