Question

我有一些与示例csv BLOB一起使用的Pyspark代码，然后我决定将其指向更大的数据集。这行：

df= df.withColumn("TransactionDate", df["TransactionDate"].cast(TimestampType()))

现在抛出此错误：

AnalysisException: u'Cannot resolve column name "TransactionDate" among ("TransactionDate","Country ...

TransactionDate显然是数据集中的一列，所以为什么突然不起作用？

Answer 1

好吧，我知道了。如果遇到此问题，请检查定界符。在我的新数据集中，它是“，”，而在我的较小样本中，它是“ |”

df = spark.read.format(file_type).options(header='true', quote='"', delimiter=",",ignoreLeadingWhiteSpace='true',inferSchema='true').load(file_location)

当列确实存在时，Pyspark无法解析列名称

1 个答案: