如何处理具有混合值类型的变量?

时间:2019-12-18 08:18:14

标签: r

我很少有同时包含字母和数字的列。 我关心的是如何治疗它们,值得使用还是宁愿丢弃它们? 此外,如果它们包含有用的信息,我应该如何处理? 各个变量是:x.14,x.2,x.10。 数据框为:

 $ X   : int  0 1 2 3 4 5 6 7 8 9 ...

 $ x.0 : chr  "b" "a" "a" "b" ...

 $ x.1 : chr  "30,83" "58,67" "24,5" "27,83" ...

 $ x.2 : chr  "f" "4.46" "0.5" "1.54" ...

 $ x.3 : chr  "u" "u" "u" "u" ...

 $ x.4 : chr  "g" "g" "g" "g" ...

 $ x.5 : chr  "w" "q" "q" "w" ...

 $ x.6 : chr  "v" "h" "h" "v" ...

 $ x.7 : chr  "1.25" "3.04" "1.5" "3.75" ..

 $ x.8 : chr  "t" "t" "t" "t" ...

 $ x.9 : chr  "t" "t" "f" "t" ...

 $ x.10: chr  "t" "6" "f" "5" ...

 $ x.11: chr  "f" "f" "f" "t" ...

 $ x.12: chr  "g" "g" "g" "g" ...

 $ x.13: chr  "202.0" "43.0" "280.0" "100.0" ...

 $ x.14: chr  "f" "560" "824" "3" ...

 $ x.20: chr  "t" "t" "t" "t" ...

 $ x.17: chr  "116,94256980957068" "225,60625307204938" "92,08407670672422" "104,16291777029285" ...

 $ x.18: chr  "0,5787085579422866" "25,409645364400404" "2,3173371593153314" "8,04533772976642" ...

 $ x.19: chr  "202000.0" "43000.0" "280000.0" "100000.0" ...

 $ x.16: chr  "f" "f" "f" "f" ...

 $ y   : chr  "good" "good" "good" "good" ...`

谢谢您的帮助!

1 个答案:

答案 0 :(得分:0)

看起来不同的列以不同的方式转换了,它们需要重新转换。

一些列(x.9,x.11)表明,“ t”和“ f”是TRUE和FALSE的缩写。它们可以转换为1和0,也可以原样保留。

x.14,x.2中的

'f'似乎是NA或0,以奇怪的方式转换。如果是这样,您可以将'f'更改为NA(或0)并将列转换为数值。否则,应将它们视为因素,如果数字不重复,这不是一个好主意。

x.1,x.17,x.18似乎是以逗号为小数点的数字。最好将“,”更改为“。”,然后将其转换为数字。

对于x.10,存在数字'f'和't'的情况不是那么明显,但是,数字的整数性质可能表明'f'和't'分别为0和1 ,特别是如果该列中不存在这些数字。否则,将'f'和't'转换为NA可能更安全。

相关问题