Question

我试过

 from numpy import array
 from pyspark.mllib.clustering import BisectingKMeans, BisectingKMeansModel

我正在使用iris.data集：

 iris_model.transform(iris)

但是我收到了这个错误：

 AttributeError                            
 Traceback (most recent call last)
 <ipython-input-241-59b5e8c1e068> in <module>()
 ----> 1 iris_model.transform(iris)

AttributeError: 'BisectingKMeansModel' object has no attribute 'transform'

我可以获得ClusterCenters并获得数组，但我需要每个案例所属的组。

由于

Answer 1

您可能不匹配Spark ML和MLlib API。

MLLib包是第一个包，但后来开发人员开始构建新的包ML，它与DataFrames一起使用。

将您的包更改为pyspark.ml.clustering，您将拥有新版本，该版本具有transform功能并可与DataFrame和新ML管道配合使用。我建议您在算法运行时构建Pipeline：）

如何在pyspark中的Bisecting K-means方法中获取集群ID

1 个答案: