机器学习 - 使用大数据集

时间:2015-04-02 20:42:11

标签: python machine-learning scikit-learn pca logistic-regression

我正在尝试将机器学习应用于Kaggle.com数据集。我的数据集的维度是244768 x 34756.现在这个大小的scikit算法都不起作用。

我以为我会应用PCA,但即便如此也不会扩展到此数据集。

无论如何,我可以减少训练数据集中的冗余数据吗?我可以通过应用PCA减少维度,但是如果我可以应用PCA。

由于我正在进行文档分类,因此通过减少单词矢量大小,我将数据集重新采样为244768 * 5672。 PCA无法应用于此数据集。

我可以通过这种方法应用PCA吗?假设我的矩阵是A - X = A.T * A. pca(X)(X变为5672 x 5672矩阵) 这会给我错误的答案吗?

同样,当我应用Logistic回归时,我可以逐步训练模型,.ie

如果A = 10000 x 500 我可以拿1000 x 500,到logistic.fit(A),然后对其他行做同样的事情吗?这种训练错了吗?

1 个答案:

答案 0 :(得分:0)

您可以在少数模型上对数据进行分段,输出将输入到下一个模型中,从而为您提供结果。 基本上是它的RNN架构。 由于内存限制,将大量数据放在一个网络中是不可能的。