analytics - 建立模型时数据科学问题中的分类变量处理

时间：2018-09-03 13:06:06

标签： analytics

我是否要考虑确实对预测有一定影响的分类变量，遇到了各种各样的问题。我想知道，在构建具有大约43个级别的模型时，是否应该考虑分类变量。类别category_level

我想为二进制分类问题建立一个模型，为此我已经从scikit学习中尝试了LevelEncoder，OneHotencoder等。但是什么都没有解决，也不知道我如何考虑这种分类功能。

答案 0 :(得分：0)

我们可以在预测中使用分类变量。如前所述，如果您有大约43个级别，则可以将类似级别归为一个类别，依此类推。这将是一项业务决策，或者您可以看到该变量中的不同类别与输出变量之间的关系。这会将级别数从43减少到更少的数量。然后在这些俱乐部类别中创建虚拟变量。

答案 1 :(得分：0)

执行此操作的另一种方法是使用ANOVA（方差分析）查看该变量中各个类别的差异。如果它们没有显着差异，则可以将它们归为一类。我将分享一个例子来解释这一点。