在R中重新格式化CSV文件

时间:2015-10-17 15:36:43

标签: python r excel csv data-mining

我正在尝试为数据挖掘创建一个csv文件,其中每个单独的实例都有一个属性subject,其中40可能的值和相应的grade属性。每个实例最多只能有4 subjectsgrade。如何在excel中创建一个csv文件,将每个主题{p,q,r,s,t,u,v,w,x,y,z,aa,ab,...}表示为sub-attribute作为{A,B,C,D,E,F,O}等级的主题,以便我不会失去依赖关系。

他们显然是(subject->sub, grade->grd)安排如下

|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 |
|--|---|-----|-----|-----|-----|-----|-----|-----|-----|
|1 |M  |x    |A    |y    |B    |u    |O    |s    |C    |
|2 |F  |p    |E    |aa   |E    |t    |A    |r    |B    |
|3 |M  |q    |B    |z    |D    |aa   |A    |v    |C    |
|4 |F  |t    |D    |ab   |O    |y    |B    |u    |A    |

我想将属性转换为

|id|sex|subject                                        |
|--|---|-----------------------------------------------|
|1 |M  |x    |A    |y    |B    |u    |O    |s    |C    |
|2 |F  |p    |E    |aa   |E    |t    |A    |r    |B    |
|3 |M  |q    |B    |z    |D    |aa   |A    |v    |C    |
|4 |F  |t    |D    |ab   |O    |y    |B    |u    |A    |

提前致谢

1 个答案:

答案 0 :(得分:0)

此后一直很长,但希望这有助于其他人。正如@ Anony-Mousse所说,格式不再是csv数据格式。诸如字典之类的数据结构可以有助于这种表示。这里有两种可能的替代方法,您可以创建嵌套字典和列表,或者数据的表示可以是宽格式。对于像R这样的语言,要将数据转换为long fomart,您可以使用reshape包引用此链接。 https://stats.idre.ucla.edu/r/faq/how-can-i-reshape-my-data-in-r/

相关问题