python - 机器学习 - 使用大数据集

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756.现在这个大小的scikit算法都不起作用。

我以为我会应用PCA，但即便如此也不会扩展到此数据集。

无论如何，我可以减少训练数据集中的冗余数据吗？我可以通过应用PCA减少维度，但是如果我可以应用PCA。

由于我正在进行文档分类，因此通过减少单词矢量大小，我将数据集重新采样为244768 * 5672。 PCA无法应用于此数据集。

我可以通过这种方法应用PCA吗？假设我的矩阵是A - X = A.T * A. pca（X）（X变为5672 x 5672矩阵）这会给我错误的答案吗？

同样，当我应用Logistic回归时，我可以逐步训练模型，.ie

如果A = 10000 x 500 我可以拿1000 x 500，到logistic.fit（A），然后对其他行做同样的事情吗？这种训练错了吗？