我有一个数据集,看起来像下面的第一行:
Name Geometry Restaurant School Hospital Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0 0 0 0 0 0
但是,我的实际数据集具有40,000个点和大约400个名义特征。我可以使用DBSCAN将我的点聚类为约400个聚类,但是这只是基于距离的聚类。我该如何考虑我的名义特征,以使Restaurant
和Auto_Repair
这样的点与Restaurant
和Salon
的点不太可能出现在同一群集中?我是否可以使用jaccard或余弦相似度矩阵来调整哈弗斯汀距离矩阵?