从火车上复制pandas.get_dummies列以测试数据

时间:2017-08-16 01:01:18

标签: python pandas dummy-variable train-test-split feature-engineering

我有两个数据框,traintest。它们都具有完全相同的列名,其中包含分类字符串功能。

我试图将这些特征映射到训练集中的虚拟变量,训练回归模型,然后对测试集进行相同的精确映射,并将训练后的模型应用于它。

我遇到的问题是,由于test小于train,因此碰巧不包含某些分类功能的所有可能值。由于pandas.get_dummies()似乎只是查看data.Series.unique()来创建新列,因此在为traintest添加虚拟列之后,test现已减少列。

那么我该如何为train添加虚拟列,然后为test使用相同的精确列名,即使testtest.feature.unique()中的特定功能也是如此是train.feature.unique()的子集?我查看了pd.get_dummies documentation,但我认为我没有看到任何我正在寻找的东西。非常感谢任何帮助!

0 个答案:

没有答案