我使用三个变量运行Spark(2.2)PCA:x,y和z。 我明白了:
+-----------------------------------------------------------+
|pcaFeatures |
+-----------------------------------------------------------+
|[4192.998527751072,7.815744760976605,2.064076348440629] |
|[934.9987857492071,6.178849121007534,2.0229856767680876] |
|[81.99880210954893,6.012098465539804,2.0127405793319535] ...
所以这些是特征向量。它们是按顺序对应x,y和z吗?如果PCA是关于功能减少,那么我可以说x解释了大部分数据,所以只使用x?我可以用数学方式表示这个百分比,因为我有一个值向量吗?
答案 0 :(得分:1)
PCA用于减少尺寸数量。如果输入维度为3(x,y,z)且输出维数也为3,那么就没有真正降维,而PCA没有任何意义。
输出要素与x,y和z不对应。这只是一个新的 一组功能。不,你不能说第一个功能解释了大部分数据。