相似度哈希函数(simhash)

时间:2012-04-23 06:58:08

标签: hash hash-function simhash

我使用哈希函数时遇到问题。我必须为文档中的每个字分配一些数字(128位或64位)。因此,“相似性”的哈希值必须接近“相似”。这意味着,如果具有相似度值=> 10022(比方说),那么类似于=> 10025。应该附近有类似的词。另外,不同名称的哈希值也应该相似。这意味着,“john”的哈希值也应该接近“michel”或“sita”......等等。如果有任何人对此有任何想法。

先谢谢了。 :)

2 个答案:

答案 0 :(得分:3)

它不能以这种方式工作,首先你必须找到可用数据样本值的通用模型,然后将它用于流日志消息。

答案 1 :(得分:0)

有一个名为OpenNLP的库,因此通过使用此库,您可以知道它是什么类型的单词。然后正如你所说的那样,对于像名字这样的类似单词,可以有写散列函数,其中名称或动词,因此可以得到类似的散列值。 感谢。