当列确实存在时,Pyspark无法解析列名称

时间:2018-12-31 19:22:10

标签: pyspark

我有一些与示例csv BLOB一起使用的Pyspark代码,然后我决定将其指向更大的数据集。这行:

df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType()))

现在抛出此错误:

AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...

TransactionDate显然是数据集中的一列,所以为什么突然不起作用?

1 个答案:

答案 0 :(得分:0)

好吧,我知道了。如果遇到此问题,请检查定界符。在我的新数据集中,它是“,”,而在我的较小样本中,它是“ |”

df = spark.read.format(file_type).options(header='true', quote='"', delimiter=",",ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)