分类字段的可能性太多

时间:2017-01-24 13:04:49

标签: pandas machine-learning categorical-data

我有40个输入分类字段,例如 "的cpumodel" (1523种可能性)

他们每个人都有数千种可能性。

如果我使用get_dummies,我的熊猫表将包含许多虚拟列。 这个字段我打算用作机器学习算法的输入功能。

我该如何处理?

1 个答案:

答案 0 :(得分:0)

在这种情况下你应该使用labelencoder。在分类列上使用它将返回一个列,其中包含表示这些变量的频率计数的数值。

参考:http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.LabelEncoder.html

希望有所帮助!