Python中的多变量K均值聚类?

时间:2020-06-30 15:35:07

标签: python scikit-learn cluster-analysis k-means

我不确定是否存在用于此目的的术语,但我将尝试在下面解释我的问题。

因此,我有一个现有的k均值聚类算法,该算法使用scikit-learn,大约50个维度,对应于不同的日期。数据点是每个日期的价格偏差。我的簇很好。但是,我想对此进行修改,以便对于每个数据点,在每个维度上,我们关注两个感兴趣的变量-假设价格偏差和绝对价格。关于数据数组,我想传递给scikit-learn的KMeans函数,我将使用类似这样的方法:

X = np.array([[1, 2], [1, 4], [1, 0],
...               [10, 2], [10, 4], [10, 0]])

像这样

X = np.array([[(1, 0.2), (2, 0.5)], [(1, 1.1), (4, 0.6)], [(1, 0.33), (0, 1.1)],
...               [(10, 0.1), (2, 0.4)], [(10, 0.22), (4, 1.7)], [(10, 0.3), (0, 1.2)]])

(显然,这些是由数字组成的,但是我希望你明白我在说什么)

问题是我相信scikit-learn库中的KMeans不会采用这样的元组-这是可以理解的,因为在这种情况下,传统的L2-范数没有意义。我想知道是否有使用Python库执行此操作的方法。当然,我可以手动完成此操作,但是即使在那儿,我也不知道要使用的最佳距离标准是什么。对于这两个值,也许只是距质心的欧几里得距离的平均值?如果是这样,我显然可以将我的所有变量均化为0,方差1。

希望这很有意义,感谢您的帮助!

0 个答案:

没有答案
相关问题