Pyspark和HDFS:将新的dataframe列添加到hdfs中的现有镶木地板文件中

时间:2018-10-24 11:42:45

标签: pyspark hdfs parquet

让我首先从我的场景开始: 我有一个巨大的数据帧存储在HDFS中。我在Spark会话中加载数据框 并创建一个新列,而不更改任何现有内容。之后,我想将数据帧存储到HDFS的原始目录中。

现在,我知道,我几乎可以用df.parquet.write("my_df_path", mode="overwrite")的方式处理spark的写操作。由于数据量巨大,因此我正在研究是否存在所谓的逐列追加模式或方法,即不会将完整的数据帧仅将差异写回到存储的数据中。最终目标是为HDFS系统节省内存和计算量。

0 个答案:

没有答案