适合分布式,独立预测

时间:2016-08-19 14:00:49

标签: apache-spark jvm pmml

如何在分布式大数据平台(例如Apache Spark)中训练(拟合)模型,并在尽可能少依赖的独立机器(例如JVM)中使用该模型?

我听说PMML但我不确定它是否足够。还有Spark 2.0 supports persistent model,但我不确定加载和运行这些模型需要什么。

1 个答案:

答案 0 :(得分:2)

Apache Spark持久性是关于以JSON数据格式保存和加载Spark ML管道(将其视为Python的pickle机制或R&R的RDS机制)。这些JSON数据结构映射到Spark ML类。它们在其他平台上没有意义。

对于PMML,您可以使用JPMML-SparkML库将Spark ML管道转换为PMML文档。您可以使用JPMML-Evaluator库执行PMML文档(无论它们来自Apache Spark,Python还是R)。如果您正在使用Apache Maven来管理和构建项目,那么可以通过向项目的POM添加一个依赖项声明来包含JPMML-Evaluator。