Question

我正在努力完成以下任务：

我有一个包含许多变量的数据集，其中一个名为Gender，因此有2个级别＆＃34; M＆＃34;和＆＃34; F＆＃34;。
我想在没有替换这个数据集的情况下进行采样，让我们说1000次观察，所以我得到相同数量的＆＃34; M＆＃34;和＆＃34; F＆＃34;，每个500。

贝娄是我正在尝试的代码。 x是数据集，因此x$gender是变量列

test_sample<- x[sample(nrow(x),1000,replace = FALSE,prob = ?) ,]

我知道如何才能使这项工作？

Answer 1

对于某些data.frame，df应该接近变量Gender：

males <- which(df$Gender == "M")
females <- which(df$Gender == "F")

malesSampled <- sample(males, size=500)
femalesSampled <- sample(females, size=500)

dfSampled <- df[c(malesSampled, femalesSampled),]

采样数据帧具有2级分类相等的概率

1 个答案: