随机删除重复的观察

时间:2021-07-10 07:47:37

标签: r random duplicates

指包含家庭 ID 和个人数据的 2346 个观察数据集。

包括来自 340 个家庭的不止一个人(从 2 到 5 不等)。由于来自同一家庭的个体比来自不同家庭的个体更相似,因此我需要从家庭中取出重复的观察结果,以生成一个包含来自独特家庭的 2346 - 340 = 1931 个观察结果的数据集。

我已申请:

DDW_2020_test <-with(DDW_2020, DDW_2020[order(hhid, pid, DDS), ])
DDW_2020_test[!duplicated(DDW_2020_test$hhid), ]

这确实给了我一个新的数据集,其中包含来自独特家庭的 1931 次观察,但是重复的数据并没有被随机取出,只是保留了第一个观察,而随后的观察被删除了。

如何以随机方式从独特的家庭中取出重复的观察结果?

0 个答案:

没有答案
相关问题