一些单词向量返回无限或无限的值

时间:2017-08-12 06:41:02

标签: python numpy gensim word2vec

我像往常一样训练我的单词矢量。我事先清理了文本,其中每一行都是一个用空格分隔的标记的句子

class Sentences:
    def __init__(self):
        pass

    def __iter__(self):
        i = 0
        with codecs.open('./data/cleaned_corpus.txt', 'r', 'utf-8') as file:
            for line in file:
                i += 1
                if i % 5000 == 0:
                    print('processed ' + str(i))

                yield line.split()


w2v = Word2Vec(Sentences(), size=100, min_count=10)
w2v.wv.save('model')

问题是某些向量返回的数组值为numpy infs

array([-inf,  inf, -inf,  inf,  inf,  inf,  inf,  inf, -inf, -inf,  inf,
    inf, -inf, -inf,  inf,  inf, -inf, -inf,  inf,  inf,  inf, -inf,
    inf,  inf, -inf, -inf, -inf,  inf, -inf,  inf, -inf,  inf,  inf,
   -inf, -inf,  inf,  inf,  inf,  inf,  inf,  inf,  inf, -inf, -inf,
   -inf, -inf,  inf,  inf,  inf, -inf, -inf, -inf, -inf, -inf, -inf,
   -inf, -inf, -inf, -inf,  inf, -inf,  inf,  inf,  inf,  inf, -inf,
    inf, -inf, -inf, -inf, -inf,  inf,  inf,  inf,  inf, -inf,  inf,
   -inf, -inf,  inf,  inf,  inf,  inf, -inf,  inf, -inf, -inf,  inf,
   -inf, -inf,  inf,  inf,  inf, -inf, -inf,  inf, -inf, -inf, -inf,
    inf], dtype=float32) 

我已经对矢量进行了3次重新训练,我不知道导致这种情况的原因

0 个答案:

没有答案