Question

我正在研究一个项目，其中有两个excel的一个master.xls和另一个sample.xls。主文件同时具有因变量和自变量。 sample.xls仅具有自变量，需要创建自变量（1或0，1 =糖尿病，0 =非糖尿病）

现在，我需要使用主文件来训练模型并预测样本文件的自变量。但是不确定如何在训练和测试之间分配数据。需要帮忙。

Answer 1

使用read_excel库的pandas函数来加载数据（例如master.xls）

import pandas as pd
df = pd.read_excel('master.xls')

让我们说y是因变量（即机器学习术语中的基本事实值）。获取y列值，并将其从dataframe df

中删除

y = df['y']
df = df.drop(['y'],axis=1)

现在使用train_test_split的scikit-learn函数将数据拆分为train和test

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.3)

现在，X_train将具有总数据点的70%，而X_test将具有总数据点的30%。 y_train和y_test分别是train和test数据的因变量