Question

我使用三个变量运行Spark（2.2）PCA：x，y和z。我明白了：

+-----------------------------------------------------------+
|pcaFeatures                                                |
+-----------------------------------------------------------+
|[4192.998527751072,7.815744760976605,2.064076348440629]    |
|[934.9987857492071,6.178849121007534,2.0229856767680876]   |
|[81.99880210954893,6.012098465539804,2.0127405793319535] ...

所以这些是特征向量。它们是按顺序对应x，y和z吗？如果PCA是关于功能减少，那么我可以说x解释了大部分数据，所以只使用x？我可以用数学方式表示这个百分比，因为我有一个值向量吗？

Answer 1

PCA用于减少尺寸数量。如果输入维度为3（x，y，z）且输出维数也为3，那么就没有真正降维，而PCA没有任何意义。

输出要素与x，y和z不对应。这只是一个新的一组功能。不，你不能说第一个功能解释了大部分数据。

我如何解释Spark PCA输出？

1 个答案: