建立模型时数据科学问题中的分类变量处理

时间:2018-09-03 13:06:06

标签: analytics

我是否要考虑确实对预测有一定影响的分类变量,遇到了各种各样的问题。 我想知道,在构建具有大约43个级别的模型时,是否应该考虑分类变量。 类别category_level

我想为二进制分类问题建立一个模型,为此我已经从scikit学习中尝试了LevelEncoder,OneHotencoder等。 但是什么都没有解决,也不知道我如何考虑这种分类功能。

2 个答案:

答案 0 :(得分:0)

我们可以在预测中使用分类变量。如前所述,如果您有大约43个级别,则可以将类似级别归为一个类别,依此类推。这将是一项业务决策,或者您可以看到该变量中的不同类别与输出变量之间的关系。这会将级别数从43减少到更少的数量。然后在这些俱乐部类别中创建虚拟变量。

答案 1 :(得分:0)

执行此操作的另一种方法是使用ANOVA(方差分析)查看该变量中各个类别的差异。如果它们没有显着差异,则可以将它们归为一类。我将分享一个例子来解释这一点。

相关问题