使用低级函数将pyspark数据框中的单列中的值转换为文本清除中的小写

时间:2019-02-20 16:36:46

标签: python pyspark

尝试使用.lower函数将pyspark数据帧单列中的转换值转换为小写以进行文本清除

import pyspark.sql.functions as f
f.lower(f.col(col("subject")).show()

获取:

SyntaxError: unexpected EOF while parsing

2 个答案:

答案 0 :(得分:1)

show是一种用于数据帧的方法。

让我们假设您的数据帧为df,您可以这样做:

df.withColumn(
    "subject", 
    F.lower(F.col("subject"))
).show()

答案 1 :(得分:1)

您的问题是一个括号,并且您只需要使用一次f.col()。

import pyspark.sql.functions as f
f.lower(f.col("subject")).show()

您需要将其分配给数据框:

import pyspark.sql.functions as f
df = df.withColumn("subject",f.lower(f.col("subject")))
df.show()
相关问题