文本的感知哈希函数

时间:2011-06-30 18:39:50

标签: python algorithm hash

有谁知道文本的简单感知哈希算法?我看了一下pHash函数ph_texthash,但我想要一个更简单的算法。 最好是在Python中。谢谢!

1 个答案:

答案 0 :(得分:3)

关于感知哈希函数的博客文章(在成像环境中):

和一些相关的python代码(处理图像,而不是文本,但可以适应):


据我理解这篇关于Perceptual Hashing of Textual Content的简短介绍,有很多方法(在不同的方面,如文本的水平,语言或统计方法,选择代表文本的模型,......),正确的将取决于您的域和您尝试解决的问题。

您也可以查看Locality-sensitive hashing

  

是执行高维数据的概率降维的方法。基本思想是对输入项进行散列,以便类似的项以极高的概率映射到相同的存储桶(存储桶的数量远小于可能的输入项的范围)