Question

我正在使用spark 2.1，并在dataframe列中包含类似AB|12|XY|4的值。我想通过删除最后一个元素来创建新列，因此它应显示为AB|12|XY。

我尝试拆分，rsplit无效，因此需要一些建议以获取所需的输出。

Answer 1

按以下方式使用Spark SQL split function：

>>> from pyspark.sql.functions import split
>>> json_data = ['{"c1":"AB|12|XY|4"}','{"c1":"11|22|33|44|remove"}']
>>> df        = spark.read.json(sc.parallelize(json_data))
>>> df.show()
+------------------+                   
|                c1|                  
+------------------+                  
|        AB|12|XY|4|                  
|11|22|33|44|remove|                  
+------------------+                  

>>> df2 = df.withColumn("c2", split(df.c1, '\|\w+$')[0])  # split takes a regex pattern
>>> df2.show()
+------------------+-----------+
|                c1|         c2|
+------------------+-----------+
|        AB|12|XY|4|   AB|12|XY|
|11|22|33|44|remove|11|22|33|44|
+------------------+-----------+

如果您需要做一些无法使用内置函数实现的复杂操作，则可以定义自己的用户定义函数（UDF）：

>>> from pyspark.sql.functions import udf
>>> from pyspark.sql.types import *
>>> def my_func(str):
...   return str.rsplit('|',1)[0]
...
>>> my_udf    = udf(my_func, StringType())
>>> json_data = ['{"c1":"AB|12|XY|4"}','{"c1":"11|22|33|44|remove"}']
>>> df        = spark.read.json(sc.parallelize(json_data))

>>> df2 = df.withColumn("c2", my_udf(df.c1))
>>> df2.show()
+------------------+-----------+ 
|                c1|         c2|
+------------------+-----------+
|        AB|12|XY|4|   AB|12|XY|
|11|22|33|44|remove|11|22|33|44|
+------------------+-----------+

内置SQL functions are preferred（也是here），因为您的数据不会在JVM进程和Python进程之间来回传递，这是在使用UDF时发生的情况。

从pyspark的dataframe列中删除最后一个管道分隔的值

1 个答案: