如何将数据集拆分为训练，测试和交叉验证集？

时间：2018-06-08 03:31:36

标签： numpy partitioning cross-validation indices numpy-ndarray

首先，我将来自1000x20阵列的数值数据标准化，然后创建另一个包含标准化数据的行索引的随机排列的数组。如何将此新阵列拆分为训练，交叉验证和测试集？

    <meta name="viewport" content="user-scalable=no, initial-scale=1, maximum-scale=1, minimum-scale=1, width=device-width, height=device-height, target-densitydpi=device-dpi" />  
    <meta name="apple-mobile-web-app-capable" content="yes" />

请原谅我在堆栈溢出时有多糟糕。

2 个答案:

答案 0 :(得分：0)

您可以使用np.split将数据拆分为预定义大小的块：

X_train, X_crossVal, X_test = np.split(row_indices, [600, 800])

API Documentation

答案 1 :(得分：0)

X_train = X_norm[row_indices[0:600]]

创建交叉验证集

X_crossVal = X_norm[row_indices[600:800]]

创建测试集

X_test = X_norm[row_indices[800:1000]]

还要确保在打印它们时使用：

print(X_train.shape)