删除SparkR DataFrame中的重复观察

时间:2017-06-20 14:09:33

标签: r apache-spark apache-spark-sql sparkr

我有一个重复观察的SparkR DataFrame。我找不到删除重复项的简单方法,似乎PySpark dropDuplicates()函数在SparkR中不可用。例如,如果我有以下DataFrame,我如何根据fullname重复的事实删除第2行和第4行?

newHires <- data.frame(name = c("Thomas", "Thomas", "Bill", "Bill"),
  surname = c("Smith", "Smith", "Taylor", "Taylor"),
  value = c(1.5, 1.5, 3.2, 3.2))
newHires <- withColumn(newHires, 'fullname', concat(newHires$name, newHires$surname))
|name    | surname | value | fullname  |
|--------|---------|-------|-----------|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Thomas  | Smith   |  1.5  |ThomasSmith|
|Bill    | Taylor  |  3.2  |BillTaylor |
|Bill    | Taylor  |  3.2  |BillTaylor |

1 个答案:

答案 0 :(得分:1)

sparkR中有一个函数dropDuplicates,你也可以用作

dropDuplicates(newHire, "fullname")

请参阅here

希望这有帮助!

相关问题