Question

我是机器学习的新手，现在我正在学习k均值聚类。我对此有很多疑问。我的CSV文件有Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上述csv文件执行k均值，以预测谁在商场中花了更多钱。这里的功能是AnnualIncome和Spendin得分。因此，我的模型将输出分为二维。如果假设我需要执行2个以上的特征变量，那时候我的模型是否会超过2维？

1>如何对2个以上的特征执行k均值聚类？ 2>如果假设我的csv文件中有5个功能字段，如何减少功能数量？

Answer 1

我将分两部分回答您的问题

如果具有2个以上的特征，则k表示在n维空间中发生聚类，其中n是特征数。每个样本的向量中的维数将发生变化，无需更改算法或方法。
如果要减少可视化功能的数量，可以使用PCA（主成分分析）来实现。这是一种无监督的降维技术，您可以阅读更多内容。

为此，您可以使用python sklearn库。

如何使用k-means聚类获得更多功能

1 个答案: