句子的唯一ID

时间:2018-12-05 15:02:40

标签: python-3.x numpy machine-learning scikit-learn

我提供了数百种使用所有不同语言(unicode)的文本片段。我需要为每个句子分配一个唯一的ID,以便可以训练ML算法。我编写了自己的算法,大约有3万个重复数字。然后,我找到了这个解决方案:

def remapWord(word):
    return int.from_bytes(word.encode(), 'little')

但是显然int对于numpy太大,它抛出

ValueError: Input contains NaN, infinity or a value too large for dtype('float64').

当我尝试拟合数据时。是否有另一种方法来获取唯一ID或防止发生valueerror?

1 个答案:

答案 0 :(得分:0)

import hashlib 
def remap(word):
    h = hashlib.md5()
    h.update(word)
    return int(h.hexdigest(), 16))