如何将文件分成训练和测试数据集,然后为其创建不同的csv文件?

时间:2019-06-27 04:19:37

标签: python csv train-test-split scikit-multilearn

我有两个csv文件,我正在使用以下语法将它们分成训练集,测试集和验证集。

X_train, y_train,X_val, y_val = iterative_train_test_split(X_data, y_data,test_size=0.2)

X_train, y_train,X_test, y_test = iterative_train_test_split(X_train, y_train,test_size=0.25)

第一个csv文件的格式如下:

Tokenized Training sentences

第二个csv文件的格式如下:

label for tokenized data

如您所见,第一个文件包含标记化的句子,第二个文件包含与之关联的标签。

现在,我想为X_train,y_Train,X_val,y_val,X_test,y_test和数据创建单独的csv文件。

那么,如何将原始数据(即文本和标签)分成3个单独的文件(训练,测试和验证)?并请注意,我希望这些csv文件上的文本不是numpy数组,因为iterative_train_test_split会将数据转换为numpy n维数组

0 个答案:

没有答案