可以输出Spark作业作为另一个Spark作业的输入吗?

时间:2015-10-02 01:41:47

标签: hadoop apache-spark real-time spark-streaming pyspark

我想使用一个Spark作业的输出作为其他Spark Job的输入数据。有可能吗?

2 个答案:

答案 0 :(得分:0)

是。只要输出存储在某个地方。

答案 1 :(得分:0)

这两项工作分开了什么?您可以在作业#2中重新使用作业#1中的RDD,或者(如上所述)您需要将其存储在某处并在作业#2开头从那里读取。