pyspark - Pyspark和HDFS：将新的dataframe列添加到hdfs中的现有镶木地板文件中

让我首先从我的场景开始：我有一个巨大的数据帧存储在HDFS中。我在Spark会话中加载数据框并创建一个新列，而不更改任何现有内容。之后，我想将数据帧存储到HDFS的原始目录中。

现在，我知道，我几乎可以用df.parquet.write("my_df_path", mode="overwrite")的方式处理spark的写操作。由于数据量巨大，因此我正在研究是否存在所谓的逐列追加模式或方法，即不会将完整的数据帧仅将差异写回到存储的数据中。最终目标是为HDFS系统节省内存和计算量。

Pyspark和HDFS：将新的dataframe列添加到hdfs中的现有镶木地板文件中

0 个答案: