将列表中的相似字符串分组在一起

时间:2019-06-14 18:38:29

标签: python string grouping similarity levenshtein-distance

今天早上我一直在办公室里苦苦挣扎。

我需要找到一种从列表中将字符串分组在一起的方法。很难解释,所以这里有个例子:

假设我有以下列表:

['MONTREAL EDUCATION BOARD', 'Île de Montréal', 'Montréal',
       'Ville de Montréal', 'MONTREAL CITY', 'Monrtéal', 'Mont-réal',
       'Toronto', 'Toronto city', 'Tornoto', 'What is this', 'Bananasplit',
       'Banana', 'StLouis', 'St-Louis', 'Saint Louis']

我需要找到一种根据它们的相似性将它们分组在一起的方法:

[['MONTREAL EDUCATION BOARD'],
 ['Île de Montréal', 'Montréal','Ville de Montréal', 'MONTREAL CITY', 'Monrtéal', 'Mont-réal'],
 ['Toronto', 'Toronto city', 'Tornoto'],
 ['anything'],
 ['Bananasplit', 'Banana'],
 ['StLouis', 'St-Louis', 'Saint Louis']
]

那将是一个完美的例子。显然,它可能会(并将)出现错误。我需要使用大约10000个列表(每个列表包含5到15000个字符串)来执行此操作。我需要将错误降到最低,并争取最好的分组。

我正在使用fuzzywuzzy的稍微修改的版本。我先摘下口音,然后将所有字母大写以得到更准确的levenshtein距离。

我尝试的是设置一个阈值(比方说80),遍历列表,从每个字符串中组成一个组,并删除重复的元素。显然,这不是我需要的结果,因为我只需要将每个元素都显示在一个列表中(事实并非如此,因为A可以链接到B,B可以链接到C,但不能链接到A到C)。

    groups = []
    for curr in lst:
        curr_grp = []
        for item in lst:
            ratio = normalized.partial_ratio(curr, item)
            if ratio > SET_THRESHOLD:
                curr_grp.append((item, ratio))

        groups.append(curr_grp)

认为可能有一种方法可以从我的输出中找到最佳配置:

[[('MONTREAL EDUCATION BOARD', 100),
  ('Montréal', 100), # Will probably have to use ratio() and not partial_ratio() because
  ('Monrtéal', 88),  # this can't happen, EDUCATION BOARD is NOT Montreal
  ('Mont-réal', 89)],
 [('Île de Montréal', 100),
  ('Montréal', 100),
  ('Ville de Montréal', 93),
  ('Monrtéal', 88),
  ('Mont-réal', 94)],
 [('MONTREAL EDUCATION BOARD', 100),
  ('Île de Montréal', 100),
  ('Montréal', 100),
  ('Ville de Montréal', 100),
  ('MONTREAL CITY', 100),
  ('Monrtéal', 88),
  ('Mont-réal', 88)],
 [('Île de Montréal', 93),
  ('Montréal', 100),
  ('Ville de Montréal', 100),
  ('Monrtéal', 88),
  ('Mont-réal', 94)],
 [('Montréal', 100),
  ('MONTREAL CITY', 100),
  ('Monrtéal', 88),
  ('Mont-réal', 89)],
 [('MONTREAL EDUCATION BOARD', 88),
  ('Île de Montréal', 88),
  ('Montréal', 88),
  ('Ville de Montréal', 88),
  ('MONTREAL CITY', 88),
  ('Monrtéal', 100)],
 [('MONTREAL EDUCATION BOARD', 89),
  ('Île de Montréal', 94),
  ('Montréal', 88),
  ('Ville de Montréal', 94),
  ('MONTREAL CITY', 89),
  ('Mont-réal', 100)],
 [('Toronto', 100), ('Toronto city', 100), ('Tornoto', 86)],
 [('Toronto', 100), ('Toronto city', 100), ('Tornoto', 86)],
 [('Toronto', 86), ('Toronto city', 86), ('Tornoto', 100)],
 [('What is this', 100)],
 [('Bananasplit', 100), ('Banana', 100)],
 [('Bananasplit', 100), ('Banana', 100)],
 [('StLouis', 100), ('St-Louis', 86), ('Saint Louis', 86)],
 [('StLouis', 86), ('St-Louis', 100)],
 [('StLouis', 86), ('Saint Louis', 100)]]

是否可以找到此列表的最佳子集,其中每个元素仅出现在一组中? (所以得分最高?)请考虑一下,我的列表会更大,所以我无法测试所有配置,因为这将花费数年。

否则,还有另一种更有效的方式来做我想做的事吗?

谢谢!

1 个答案:

答案 0 :(得分:1)

您可以使用词典从尚未分组的城市逐步地分组。

请注意,我没有烦恼,所以我创建了一个贫民窟比率计算器来测试解决方案。我还删除了重音符以简化此操作(我的目的不是创建一个好的字符串比较功能)

from collections import Counter
stripJunk = str.maketrans("","","- ")
def getRatio(a,b):
    a = a.lower().translate(stripJunk)
    b = b.lower().translate(stripJunk)
    total  = len(a)+len(b)
    counts = (Counter(a)-Counter(b))+(Counter(b)-Counter(a))
    return 100 - 100 * sum(counts.values()) / total

这是分组逻辑(您可以将我的自定义getRatio()函数替换为Fuzzywuzzy的函数):

data = ['MONTREAL EDUCATION BOARD', 'Ile de Montreal', 'Montreal',
       'Ville de Montreal', 'MONTREAL CITY', 'Monrteal', 'Mont-real',
       'Toronto', 'Toronto city', 'Tornoto', 'What is this', 'Bananasplit',
       'Banana', 'StLouis', 'St Louis', 'Saint Louis']

treshold     = 75
minGroupSize = 1

from itertools import combinations

paired = { c:{c} for c in data }
for a,b in combinations(data,2):
    if getRatio(a,b) < treshold: continue
    paired[a].add(b)
    paired[b].add(a)

groups    = list()
ungrouped = set(data)
while ungrouped:
    bestGroup = {}
    for city in ungrouped:
        g = paired[city] & ungrouped
        for c in g.copy():
            g &= paired[c] 
        if len(g) > len(bestGroup):
            bestGroup = g
    if len(bestGroup) < minGroupSize : break  # to terminate grouping early change minGroupSize to 3
    ungrouped -= bestGroup
    groups.append(bestGroup)

groups变量是一个列表,其中将包含一组城市名称(各组)。城市只会出现在一组中。

# With a treshold of 75%:
{'MONTREAL CITY', 'Montreal', 'Monrteal', 'Mont-real'}
{'St Louis', 'StLouis', 'Saint Louis'}
{'Toronto', 'Toronto city', 'Tornoto'}
{'Ville de Montreal', 'Ile de Montreal'}
{'MONTREAL EDUCATION BOARD'}
{'Bananasplit'}
{'Banana'}
{'What is this'}

使用较低的阈值(或更好的比较功能),您将获得更少的组:

# With a treshold of 65%:
{'Monrteal', 'Montreal', 'Ville de Montreal', 'MONTREAL CITY', 'Mont-real', 'Ile de Montreal'}
{'Toronto', 'Toronto city', 'Tornoto'}
{'Saint Louis', 'StLouis', 'St Louis'}
{'Banana', 'Bananasplit'}
{'What is this'}
{'MONTREAL EDUCATION BOARD'}

从性能的角度来看,这将在相对较小的数据集的合理时间内产生结果。花了83秒对1600个城市进行分组。由于groups()循环的O(N ^ 2)性质,当列表中有15,000个项目时,这可能变得不切实际。

分组循环从较大的组开始。它约占处理时间的一半。一旦您到达一个足够小的小组,您可以通过停止它来节省一些时间。那就是如果您不需要庞大的1-2个城市群体。当组的大小小于3且在48秒内处理了1600个城市时,我尝试停止了分组循环(因此大大节省了我的模拟数据)。但是,使用实际数据可能无法获得这么多的性能提升。