word2vec - 我可以使用单词上下文计数对作为gensim的Word2Vec的输入

Gensim并没有把它作为输入;它期望实际的文本示例。

但是，您可以通过从您的信息生成合成语料库来近似跳过快速训练。

对于danger of 10，只需生成10个文本，每个文本['danger', 'of']。（Gensim Word2Vec期望令牌列表。）这些合成文本将导致Word2Vec训练遇到10次跳过训练 - “危险”的例子。预测＆＃39;和10个skip-gram培训 - ＆＃39;＆＃39;预测危险＆＃39; （因此，如果您的共现列表也包含of danger 10，您可能需要放弃这些以避免双重合成。）

它确实是真正的跳过-c，window为5，因为对真实文本的训练会随机缩小窗口，使得更接近的单词更加重要 - 而且您的数据并非如此包括亲密度的信息。但如果您没有其他选择，它应该在结果中类似。

我可以使用单词上下文计数对作为gensim的Word2Vec的输入

1 个答案: