有效地比较大文本文件?

时间:2017-10-26 19:06:30

标签: python performance file comparison difflib

我正在尝试使用difflib' s SequenceMatcher在Python中比较两个大约1MB的文本文件。我发现在上次运行它时,比较这个大小的文件需要花费7分钟的时间复杂度。

在没有使用散列的情况下,Python中是否有更有效的方法来实现这一点,这也将提供两个文件之间相似性的百分比或比率。

这是我现有的代码:

file1 = input()
file2 = input()
text1 = open("./text-files/" + f1 + ".txt").read()
text2 = open("./text-files/" + f2 + ".txt").read()
m = SequenceMatcher(None, text1, text2)
print(m.ratio())

由于

0 个答案:

没有答案