避免每次都构建RDD

时间:2019-04-30 12:30:39

标签: apache-spark apache-spark-sql

我在S3中有数据,我能够在S3中加载数据,因为RDD应用了一些更改以将其转换为数据帧并运行spark-sql查询。但是,无论何时将新数据添加到S3中,我都需要再次加载整个数据,因为RDD将其转换为数据帧并运行查询。有没有一种方法可以避免加载整个数据而仅加载新数据。即应该将新数据添加到RDD中,而不是加载整个RDD吗?

2 个答案:

答案 0 :(得分:0)

看看火花流:其来源之一监视目录更改

答案 1 :(得分:0)

经过几次尝试,得出的结论是无法避免重建RDD,因此我将定期重建rdd,以便s3中的新文件也将包含在rdd中。 或者我可以使用spark通过粘合表在s3中查询数据,但这很慢,因为对于内部的每个查询都将构建rdd / dataframe