要从其他文件导入CSV标头吗?

时间:2019-04-22 11:33:18

标签: pyspark

我正在尝试处理每天创建的一些相当宽的文件(超过860列)。问题是日常文件不包含标题,而是位于其他文件中。

我目前正在使用PySpark读取这些文件以创建我的数据框:

df = spark.read \
          .format('csv') \
          .option('delimiter','\t') \
          .option('inferSchema', 'true') \
          .load(path_to_data) \
          .select('field_name') \
          .show()

这会导致错误,因为没有标题就不存在“ field_name”!

是否可以从其他文件导入这些标头?当数据已经可用时,我想避免构建这么大的StructField。

谢谢!

0 个答案:

没有答案