我们是否可以更新spark-ml / spark-mllib中的现有型号?

时间:2016-12-16 21:39:46

标签: apache-spark apache-spark-mllib apache-spark-ml

我们正在使用spark-ml从现有数据构建模型。新数据每天都在发布。

有没有办法我们只能读取新数据并更新现有模型而无需每次都读取所有数据并重新训练?

2 个答案:

答案 0 :(得分:4)

这取决于您使用的模型,但对于某些Spark,您确实使用want。您可以查看StreamingKMeansStreamingLinearRegressionWithSGDStreamingLogisticRegressionWithSGD以及更广泛的StreamingLinearAlgorithm

答案 1 :(得分:2)

要完成Florent的答案,如果您不在流式上下文中,一些Spark mllib模型支持initialModel作为增量更新的起点。例如,请参阅KMeansGMM