当一个分类变量中有超过100个级别时,可以使用哪种类型的建模?

时间:2017-06-08 08:22:31

标签: r modeling

对数据帧的前几个观察。所有这些都是绝对的,有些水平超过100。

                      ac2.surcat ac2.typeonenum ac2.countrynum ac2.sumnewnum
1          Average survival rate            248            556            16
2             Poor survival rate             82            375            12
3             Poor survival rate             73            104            16
4    Below average survival rate            252           <NA>             6
5             Poor survival rate            252            200            11
6    Below average survival rate            252             83            19
7             Poor survival rate            252            200            12
8             Poor survival rate            210            111             5
9             Poor survival rate            252            178            19
10            Poor survival rate            252            178            18
11            Poor survival rate            230            200             5

我知道随机森林最多只能限制52个等级。这是一个已经简化的数据。水平从4000s减少到100s。无法进一步简化这一点

因变量是ac2$surcat(第一个)

这是一次空难数据。最后3列是飞机&#39;类型的国家&#39;和&#39;崩溃类型&#39;分别。(自变量)

0 个答案:

没有答案