在Git存储库中查找类似的blob

时间:2014-01-13 09:31:49

标签: git

我有一个源文件从另一个远程存储库导入我的存储库,想知道该文件何时在远程存储库中提交。

不幸的是,a script to find duplicated blobs对我没有帮助,因为文件在导入时略有修改。

如果有一个脚本可以找到类似的blob,我认为这个问题很容易解决。有人知道吗?

1 个答案:

答案 0 :(得分:1)

Blob(和其他git对象)由加密校验和索引。此类函数具有不将类似输入映射到类似输出的预期属性。因此,您无法根据任务使用blob ID。一种可能的方法是从git存储库中提取所有blob并在其上计算模糊校验和(例如ssdeep)。然后你可以在模糊校验和空间中搜索你的blob(在ssdeep的情况下编辑距离)。