我有一个包含数百万条记录和6列的大型csv文件。我希望获得一列的独特记录,并说出#34; Name"以及" Name"中与唯一记录关联的列。说我得到50,000个独特的"姓名"记录我想获得与这50,000条记录相关的其他5列。我知道如何在列中获取唯一记录。在下面的代码中,我将我想要的Name列(第1列)过滤成一个单独的数据框,然后使用unique函数返回唯一记录。但我不知道如何获得其他5列的独特记录。
m <- read.csv(file="Test.csv", header=T, sep=",",
colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
names <- unique(m, incomparables = FALSE)
答案 0 :(得分:1)
是的,其他人将是独特的w.r.t.你的第一栏。如果相同的名称已重复并且在其他5列中的至少一列中具有不同的条目,则该行将被计为唯一的一行。
m <- read.csv(file="Test.csv", header=T, sep=",", colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
m <- unique(m) #remove duplicates
Subset <- m[1:50000,] #subset first 50000 rows
请参阅以下链接以便更好地理解:
https://stat.ethz.ch/R-manual/R-devel/library/base/html/unique.html