保留列总和大于20百分位数的列

时间:2016-10-19 06:25:28

标签: r

我有一个数据集(df),它看起来像:

df

X24_TT  X35_FTT X55_FTT X70_FTT X85_TT  X86_FTT X90_FTT X96_FTT
  0       1        0       0      0        1       0      1
  1       0        0       1      1        1       0      1
  1       0        0       0      0        1       0      1
  0       1        0       0      0        0       1      1
  0       0        1       1      0        1       0      0
  1       0        0       0      0        0       0      0

我想只保留列总和大于20百分位的那些列,即

a)计算" df"中每列的colsum。即一组colsums

b)找出该colsums数组的第20百分位值

c)保留其colsum> gt的列。第20百分位值

如果我们计算" df"的第20百分位数。它变成了1。

因此,在新数据集(nm)中,只显示列总和大于1的那些列,即

nm

X24_TT  X35_FTT X70_FTT X86_FTT X96_FTT
  0        1       0       1      1
  1        0       1       1      1
  1        0       0       1      1
  0        1       0       0      1
  0        0       1       1      0
  1        0       0       0      0

请注意,列数很大,因此提供动态解决方案

0 个答案:

没有答案