使用word2vec进行监督分类

时间:2018-08-07 23:54:23

标签: python gensim word2vec supervised-learning

我正在尝试使用word2vec进行标记类的监督分类。我有包含带有标签的句子的数据,我希望在其上训练word2vec模型,然后使用word2vec(或可能是随机森林分类器)来找出看不见的句子的类别。到目前为止,这是我尝试过的:

import gensim
import numpy as np

class TokenizedSentence(object):

    def __init__(self, doc_list):
            self.doc_list = doc_list

    def __iter__(self):
            for t in (self.doc_list):
                    t = t.decode('utf-8')
                    yield gensim.utils.simple_preprocess(t)



tweets = ["a tweet", "another tweet", ... , "some tweet"]
labels = [1, 1, ... , 16]

training_data = TokenizedSentence(tweets)

model = gensim.models.Word2Vec(training_data, size=150, window=10, min_count=2, workers=10)
model.train(training_data, total_examples=model.corpus_count, epochs=200)
model.save("w2vmodel")

我想知道如何做才能包括每个句子附带的标签,以便我可以告诉模型句子所属的标签,然后将模型加载到其中一个单独的文件,并根据监督学习将看不见的数据分类。任何帮助表示赞赏!

0 个答案:

没有答案