Python Logistic回归(数据科学新手)

时间:2018-09-24 20:55:31

标签: logistic-regression

我正在研究一个项目,其中有两个excel的一个master.xls和另一个sample.xls。主文件同时具有因变量和自变量。 sample.xls仅具有自变量,需要创建自变量(1或0,1 =糖尿病,0 =非糖尿病)

现在,我需要使用主文件来训练模型并预测样本文件的自变量。但是不确定如何在训练和测试之间分配数据。需要帮忙。

1 个答案:

答案 0 :(得分:0)

使用read_excel库的pandas函数来加载数据(例如master.xls)

import pandas as pd
df = pd.read_excel('master.xls')

让我们说y是因变量(即机器学习术语中的基本事实值)。获取y列值,并将其从dataframe df

中删除
y = df['y']
df = df.drop(['y'],axis=1)

现在使用train_test_splitscikit-learn函数将数据拆分为traintest

from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, y, test_size=0.3)

现在,X_train将具有总数据点的70%,而X_test将具有总数据点的30%y_trainy_test分别是traintest数据的因变量