如果它们的行包含相同的哈希但是顺序不同,我们是否应该考虑两个相似?

时间:2016-02-20 13:18:25

标签: machine-learning minhash

假设我们有两组的minhash签名,我们想要计算两组的Jaccard相似度。我们有:

Array(subjects)

-> S1 S2

h1 0 1

h2 1 2

h3 2 0

S1和S2在不同的顺序中具有相同的签名。 Jaccard的相似度是1/8还是1(大约)?

1 个答案:

答案 0 :(得分:0)

这些是不同的哈希函数,因此h2(S1) == h1(S2)没有任何意义。在比较不同散列的值时没有任何意义。所以直接回答 - 这里的相似性是0(没有碰撞),所以不是1/8也不是1.

相关问题