scala - spark Vectors和scala不可变Vector之间的区别？

spark.mllib.linalg.Vector专为线性代数应用而设计。 mllib提供了两种不同的实现 - DenseVector，SparseVector。虽然您可以访问有用的方法，例如norm或sqdist，但它却相当有限。

由于来自org.apache.spark.mllib.linalg的所有数据结构，它只能存储64位浮点数（scala.Double）。

如果您打算使用mllib，那么spark.mllib.linalg.Vector几乎是您唯一的选择。 mllib的所有剩余数据结构（本地和分布式）都构建在org.apache.spark.mllib.linalg.Vector之上。

否则，scala.immutable.Vector可能是更好的选择。它是一种通用的密集数据结构。

它可以存储任何类型的对象，因此您可以拥有Vector[String]。

由于Traversable，您可以访问所有预期的方法，例如map，flatMap，reduce，fold，filter等

修改：如果您需要代数操作并且不使用org.apache.spark.mllib.linalg.distributed中的任何数据结构，您可能更愿意breeze.linalg.Vector而不是spark.mllib.linalg.Vector。它支持更大的代数方法集，包括dot产品，并提供典型的集合API。

spark Vectors和scala不可变Vector之间的区别？

1 个答案: