获取r中唯一记录的相应列

时间:2015-04-15 01:56:36

标签: r csv unique multiple-columns records

我有一个包含数百万条记录和6列的大型csv文件。我希望获得一列的独特记录,并说出#34; Name"以及" Name"中与唯一记录关联的列。说我得到50,000个独特的"姓名"记录我想获得与这50,000条记录相关的其他5列。我知道如何在列中获取唯一记录。在下面的代码中,我将我想要的Name列(第1列)过滤成一个单独的数据框,然后使用unique函数返回唯一记录。但我不知道如何获得其他5列的独特记录。

m <- read.csv(file="Test.csv", header=T, sep=",", 
              colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
names <- unique(m, incomparables = FALSE)

1 个答案:

答案 0 :(得分:1)

是的,其他人将是独特的w.r.t.你的第一栏。如果相同的名称已重复并且在其他5列中的至少一列中具有不同的条目,则该行将被计为唯一的一行。

m <- read.csv(file="Test.csv", header=T, sep=",", colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
m <- unique(m) #remove duplicates
Subset <- m[1:50000,] #subset first 50000 rows

请参阅以下链接以便更好地理解:

https://stat.ethz.ch/R-manual/R-devel/library/base/html/unique.html

Unique on a dataframe with only selected columns