Question

我有一个包含数百万条记录和6列的大型csv文件。我希望获得一列的独特记录，并说出＃34; Name＆＃34;以及＆＃34; Name＆＃34;中与唯一记录关联的列。说我得到50,000个独特的＆＃34;姓名＆＃34;记录我想获得与这50,000条记录相关的其他5列。我知道如何在列中获取唯一记录。在下面的代码中，我将我想要的Name列（第1列）过滤成一个单独的数据框，然后使用unique函数返回唯一记录。但我不知道如何获得其他5列的独特记录。

m <- read.csv(file="Test.csv", header=T, sep=",", 
              colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
names <- unique(m, incomparables = FALSE)

Answer 1

是的，其他人将是独特的w.r.t.你的第一栏。如果相同的名称已重复并且在其他5列中的至少一列中具有不同的条目，则该行将被计为唯一的一行。

m <- read.csv(file="Test.csv", header=T, sep=",", colClasses = c("character","NULL","NULL","NULL","NULL","NULL"))
m <- unique(m) #remove duplicates
Subset <- m[1:50000,] #subset first 50000 rows

请参阅以下链接以便更好地理解：

https://stat.ethz.ch/R-manual/R-devel/library/base/html/unique.html

Unique on a dataframe with only selected columns

获取r中唯一记录的相应列

1 个答案: