r - k-means聚类与新的训练数据？

时间：2014-05-17 09:06:20

标签： r algorithm data-mining

我正在研究一些图像识别的东西，并试图使用k-means来匹配算法。

实际上，我在数据库上有很多向量（确切地说，SURF描述符），我想将它们聚类以用于将来的匹配过程。

然而，问题是，我相信训练数据集会增长（可能会出现新的训练数据），这使我无法一次训练这些数据。

首先对某些数据进行聚类是可以的，但这是否意味着每个新数据都需要完全重新聚类？如果我对现有集群有足够的信心，那么少数额外数据（例如，所有数据的额外1％）是否会损害集群？

答案 0 :(得分：1)

K-means不是一种特别聪明的算法。而在SIFT向量上，结果通常不会比随机凸分区好得多。

如果您的初始样本具有代表性，则无需重新运行聚类：无论如何，新数据对质心的影响应该很小。

要加快聚类速度，您还可以重复使用以前的质心作为初始种子。这应该需要更少的迭代次数。