我正在尝试为数据挖掘创建一个csv文件,其中每个单独的实例都有一个属性subject
,其中40
可能的值和相应的grade
属性。每个实例最多只能有4
subjects
和grade
。如何在excel
中创建一个csv文件,将每个主题{p,q,r,s,t,u,v,w,x,y,z,aa,ab,...}
表示为sub-attribute
作为{A,B,C,D,E,F,O}
等级的主题,以便我不会失去依赖关系。
他们显然是(subject->sub, grade->grd)
安排如下
|id|sex|sub1 |grd1 |sub2 |grd2 |sub3 |grd3 |sub4 |grd4 |
|--|---|-----|-----|-----|-----|-----|-----|-----|-----|
|1 |M |x |A |y |B |u |O |s |C |
|2 |F |p |E |aa |E |t |A |r |B |
|3 |M |q |B |z |D |aa |A |v |C |
|4 |F |t |D |ab |O |y |B |u |A |
我想将属性转换为
|id|sex|subject |
|--|---|-----------------------------------------------|
|1 |M |x |A |y |B |u |O |s |C |
|2 |F |p |E |aa |E |t |A |r |B |
|3 |M |q |B |z |D |aa |A |v |C |
|4 |F |t |D |ab |O |y |B |u |A |
提前致谢
答案 0 :(得分:0)
此后一直很长,但希望这有助于其他人。正如@ Anony-Mousse所说,格式不再是csv数据格式。诸如字典之类的数据结构可以有助于这种表示。这里有两种可能的替代方法,您可以创建嵌套字典和列表,或者数据的表示可以是宽格式。对于像R这样的语言,要将数据转换为long fomart,您可以使用reshape包引用此链接。 https://stats.idre.ucla.edu/r/faq/how-can-i-reshape-my-data-in-r/