如何使用k-means聚类获得更多功能

时间:2019-02-25 07:35:30

标签: machine-learning k-means

我是机器学习的新手,现在我正在学习k均值聚类。我对此有很多疑问。我的CSV文件有Mall_Customers

    CustomerID  Genre   Age Annual Income (k$)  Spending Score (1-100)
0   1            Male   19      15                39
1   2            Male   21      15                81
2   3            Female 20      16                6
3   4            Female 23      16                77
4   5            Female 31      17                40

我想对上述csv文件执行k均值,以预测谁在商场中花了更多钱。这里的功能是AnnualIncome和Spendin得分。因此,我的模型将输出分为二维。如果假设我需要执行2个以上的特征变量,那时候我的模型是否会超过2维?

1>如何对2个以上的特征执行k均值聚类? 2>如果假设我的csv文件中有5个功能字段,如何减少功能数量?

1 个答案:

答案 0 :(得分:0)

我将分两部分回答您的问题

  1. 如果具有2个以上的特征,则k表示在n维空间中发生聚类,其中n是特征数。每个样本的向量中的维数将发生变化,无需更改算法或方法。

  2. 如果要减少可视化功能的数量,可以使用PCA(主成分分析)来实现。这是一种无监督的降维技术,您可以阅读更多内容。

为此,您可以使用python sklearn库。