Spark ML:保存为模型时,OneHotEncoder的categorySizes丢失

时间:2019-01-22 18:00:34

标签: apache-spark-mllib

我有一个Pipeline,它有几个阶段,包括一些OneHotEncoder's。在检查已保存的OneHotEncoder's阶段的元数据时,我看不到categorySizes保留在任何地方。实际上,相应阶段下的data文件夹已完全丢失。

总体上OneHotEncoder如何知道对传入数据执行正确的Transform()的符号数量?

总体而言,阶段持久性似乎非常不一致。有些保存为模型类(例如StringIndexerModel),有些只是基础转换器(例如OneHotEncoder)。

0 个答案:

没有答案