帮助在Rapidminer上进行k均值聚类的分类变量的假设

时间:2019-09-20 08:09:15

标签: k-means categorical-data rapidminer

我已经获得了一个包含5个变量的k均值聚类练习的数据集。 其中三个是连续的(客户的年龄,每笔交易的项目数和交易的美元价值),但是其他两个不是二项式的(在商店或在线交易中为1或0),另一个是多项式(“ Region”(区域))值1,2,3或4)。 (尽管它们当前都以整数形式存在于数据集中)

我是否假设我应该排除交易类型和区域?我的逻辑是,由于交易不能介于在线交易或实体交易之间,因此产生的质心或多或少是垃圾。同样,对于地理区域-平均值没有意义。

在此先感谢您的协助。我花了最后一天半的时间在网上进行研究,但毫无疑问(肯定)。

(如果有什么不同,我在Rapidminer中工作)

Screenshot of sample of dataset

0 个答案:

没有答案
相关问题