Question

我有一个 CSV 文件，其中包含多个列，每个列都包含电子邮件地址。我想删除整个文件中的任何重复项。

任何人都可以使用R？

Answer 1

df <- data.frame(email1 = c('foo@foo.com', 'foo@bar.com'),
                     email2 = c('foo@foo.com', 'foo@baz.com'),
                     stringsAsFactors = FALSE)

all_unique_emails <- unique(c(df$email1, df$email2))

Answer 2

排序取决于您最终想要的内容，您是否希望使用NAs完全相同的csv文件代替重复的电子邮件？或者你只是想要一个独特的电子邮件列表/矢量？

看看函数unique（）和duplicated（），他们应该能够至少判断电子邮件是否已经存在。

Answer 3

一种选择是将您的数据帧转换为向量并提取所有唯一值：

email_address_vector <- unique( as.vector(t(df)) )

删除R中多个列的重复项

3 个答案: