最合适的分析方法 - 聚类?

时间:2018-03-15 09:25:45

标签: merge statistics cluster-analysis

我有2个大型数据框,其中类似的变量代表2个单独的调查。每个数据框中的某些行(参与者)对应于另一个,我想将这两个链接在一起。

两个数据框中都有一个索引,尽管该索引表示调查的位置(即区域)而不是单个ID。 合并是不可能的,因为在大多数情况下,不同参与者的索引值相同。

鉴于不可能合并来自2个数据帧的索引值,我希望比较来自两个数据帧的相似变量(二进制)(除了两个数据帧共有的索引值)以便给出我是匹配的最高可能性。然后我可以(有一些误差)匹配类似变量的最相似值的行并将它们合并在一起。

您认为这样做的适当方法是什么?聚类?

最佳, 詹姆斯

1 个答案:

答案 0 :(得分:0)

这显然不是聚类。你不想要大量的记录。

您想要做的是近似加入。

相关问题