使用有偏见的数据集培训决策树

时间:2016-04-17 07:41:06

标签: machine-learning classification decision-tree

我是数据挖掘的新手,我正在尝试训练决策树,但我选择的数据集非常偏向,因此我得到的结果也有偏见。我在网上搜索过,我发现平衡准确。我对结果不满意。

如果我以这样的方式对我的数据集进行采样,那么这是一个好主意吗?在1000个YES和1000个NO的情况下,我会对它进行平均分配?

2 个答案:

答案 0 :(得分:0)

处理类不平衡的一种方法是对较大的类进行欠采样,使类分布大约为一半。

你的问题的答案是肯定的,假设1000是较小类的大小,那么你就会失去较少的大类数据点。

注意:从大型数据点中进行选择时,请尝试省略那些缺失值较多的数据点。

答案 1 :(得分:0)

您还可以在建模时给予重量。你可以为少数民族分配更高的权重,它将弥补不平衡。