群集标签的无偏预测

时间:2015-04-15 09:02:07

标签: machine-learning cluster-analysis prediction supervised-learning unsupervised-learning

我对评估通过无监督聚类发现的聚类标签的可预测性感兴趣。假设我有一个由患者组成的数据集,我使用无监督聚类技术根据他们的基因表达谱对它们进行分组。我的方法发现了4个集群。现在,我想知道这个集群成员资格是否可以从表达式数据中预测。使用全数据无监督聚类标签作为输出变量,我以交叉验证的方式训练有监督的分类器。因此,我使用80%的数据训练分类器,并评估其他20%的准确性。

此方法是否有偏差,因为输出群集标签是从完整数据中学习的?如果是,我怎么能以无偏见的方式做到这一点?如果我以交叉验证的方式进行聚类,我认为我需要在每个不同的折叠之间手动关联聚类。由于我对四个集群中的一个集群与其他集群中的一个集群的可预测性特别感兴趣,因此我必须通过某种手动分析找出数据的每个集群中的哪个集群。

1 个答案:

答案 0 :(得分:1)

说实话,整个问题似乎不正确。如果你有一个构建一些数据分区的算法(聚类技术),那么它可以通过监督方法始终预测。实际上,根据所使用的一族群的知识 - 人们可以提出完美的分类器(准确率接近100%)。您应该重新考虑问题陈述。特别是,每个聚类技术可以通过添加一些约束来转换为分类器,这些约束必须放置在同一个集群中。因此,如果您使用群集C,那么可以简单地将C转换为半监督方法,其中必须根据给定标签在训练集中获得的群集元素。通过这种方式,我们将始终创建完全相同的标签,从而实现100%的准确性。

创建有效假设的唯一方法是由一些专家分配这些标签,因为我们不能构建分类器,即#34;具有约束的专家"。因此上述推理将失败。换句话说 - 如果你想测试一些标签是否可以以监督的方式预测,你需要以难以建模的方式获得这些标签(例如人类专家,自然,物理,实验,昂贵的数值评估)并不是像集群模型这样简单的东西,因为监督学习的整个要点是找到这个潜在的模型。如果事先知道这个模型(不是算法本身,而是我们),那么整个推理是不正确的。您只会回答以下问题:

  

通过选择的聚类技术分析模型族是否与使用的分类器假设空间族相似。

或者更正式

  

使用的分类器与所选聚类算法引起的分布一致,在一个考虑的数据集上运行。