DBSCAN的经久点和名义特征

时间:2018-07-05 21:44:09

标签: python scikit-learn dbscan

我有一个数据集,看起来像下面的第一行:

Name Geometry  Restaurant  School  Hospital  Bank Auto_Repair Gas_Station Salon
Chipotle POINT(-82.458142 27.387703) 1 0  0 0 0 0 0

但是,我的实际数据集具有40,000个点和大约400个名义特征。我可以使用DBSCAN将我的点聚类为约400个聚类,但是这只是基于距离的聚类。我该如何考虑我的名义特征,以使RestaurantAuto_Repair这样的点与RestaurantSalon的点不太可能出现在同一群集中?我是否可以使用jaccard或余弦相似度矩阵来调整哈弗斯汀距离矩阵?

0 个答案:

没有答案