Question

我不确定是否存在用于此目的的术语，但我将尝试在下面解释我的问题。

因此，我有一个现有的k均值聚类算法，该算法使用scikit-learn，大约50个维度，对应于不同的日期。数据点是每个日期的价格偏差。我的簇很好。但是，我想对此进行修改，以便对于每个数据点，在每个维度上，我们关注两个感兴趣的变量-假设价格偏差和绝对价格。关于数据数组，我想传递给scikit-learn的KMeans函数，我将使用类似这样的方法：

X = np.array([[1, 2], [1, 4], [1, 0],
...               [10, 2], [10, 4], [10, 0]])

像这样

X = np.array([[(1, 0.2), (2, 0.5)], [(1, 1.1), (4, 0.6)], [(1, 0.33), (0, 1.1)],
...               [(10, 0.1), (2, 0.4)], [(10, 0.22), (4, 1.7)], [(10, 0.3), (0, 1.2)]])

（显然，这些是由数字组成的，但是我希望你明白我在说什么）

问题是我相信scikit-learn库中的KMeans不会采用这样的元组-这是可以理解的，因为在这种情况下，传统的L2-范数没有意义。我想知道是否有使用Python库执行此操作的方法。当然，我可以手动完成此操作，但是即使在那儿，我也不知道要使用的最佳距离标准是什么。对于这两个值，也许只是距质心的欧几里得距离的平均值？如果是这样，我显然可以将我的所有变量均化为0，方差1。

希望这很有意义，感谢您的帮助！

Python中的多变量K均值聚类？

0 个答案: