Question

我有一个包含ID，名称和地址的DataFrame。我想通过亲和传播或其他算法对地址进行聚类，以便对地址字符串进行模糊匹配/分组。这部分我有：

import pandas as pd
import pyodbc
import numpy as np
from sklearn.cluster import AffinityPropagation
from pyjarowinkler import distance
from sklearn import metrics

conn = pyodbc.connect(r'DSN=<UserDSN>;')
df = pd.read_sql('select * from <InputTable>', conn)

addr = df['Addresses']
addr = np.asarray(addr)

jw = np.array([[distance.get_jaro_distance(w1,w2) for w1 in addr] for w2 in addr])

affprop = AffinityPropagation(affinity="precomputed", damping=.5)
affprop.fit(jw)

for cluster_id in np.unique(affprop.labels_):
    exemplar = addr[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(addr[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)
    print(" - *%s:* %s" % (exemplar, cluster

现在，如何通过拥有一个＆＃34; Cluster＆＃34;来使这个聚类变得有用。 DataFrame中的列？基本上，我想将每个群集的exemplar添加回DataFrame中的相应行。我是否需要某种独特的ID才能做到这一点？这样做的目的是识别数据中的重复行，因此当前没有唯一ID。但是，也许我可以以某种方式在原始DataFrame中添加一个，因为每一行作为一个整体将是唯一的？

感谢大家的任何见解！

Answer 1

df['new_col'] = list(affprop.labels_)

如何通过模糊匹配字符串聚类Pandas数据帧行？

1 个答案: