在需要存储重复的json文件时,有哪些可行的策略可用来检测重复的文件?

时间:2019-04-18 06:23:47

标签: python json data-structures

我在json中存储了大量数据,这些数据太大而无法加载到内存中。 json字段包含有关用户的数据和一些元数据-但是,肯定有一些重复项。我想浏览并整理文件,以特定方式合并重复项。

但是,我不确定这样做的最佳实践是什么。我曾考虑使用Bloom过滤器,但是Bloom过滤器不会让我知道重复的是 of 的重复,因此我无法完全合并。有什么我可以阅读/看到的最佳实践是什么?有哪些行业标准?所有这些都需要在python中完成。

1 个答案:

答案 0 :(得分:1)

您可以按哈希值将记录划分为适合内存的较小集合,删除每个集合中的重复项,然后将它们重新组合成一个文件。