熊猫:部分依赖图+一种热编码

时间:2019-03-06 06:43:06

标签: python pandas machine-learning

我目前正在通过this tutorial工作。我目前想展示的是“生存”如何受到性别的影响(数据集中的性别)。因为那是分类数据,所以我必须首先转换该数据。我使用一种热门编码进行了尝试,但这似乎不是正确的方法。有人可以帮助我吗?

titanic_data = pd.read_csv('../input/titanic/train.csv')
titanic_y = titanic_data.Survived
clf = GradientBoostingClassifier()

titanic_sex = titanic_data.Sex
one_hot_encoded_training_predictors = pd.get_dummies(titanic_sex)

titanic_X_colns = ['PassengerId','Age', 'Fare', one_hot_encoded_training_predictors]
titanic_X = titanic_data[titanic_X_colns]
my_imputer = Imputer()
imputed_titanic_X = my_imputer.fit_transform(titanic_X)

clf.fit(imputed_titanic_X, titanic_y)
titanic_plots = plot_partial_dependence(clf, features=[1,2,3], X=imputed_titanic_X, 
                                        feature_names=titanic_X_colns, grid_resolution=8)

1 个答案:

答案 0 :(得分:0)

PDPbox处理编码为OHE的分类变量的部分依赖图(尽管似乎没有积极维护)

相关问题