machine-learning - 使用有偏见的数据集培训决策树 - Thinbug

使用有偏见的数据集培训决策树

时间：2016-04-17 07:41:06

标签： machine-learning classification decision-tree

我是数据挖掘的新手，我正在尝试训练决策树，但我选择的数据集非常偏向，因此我得到的结果也有偏见。我在网上搜索过，我发现平衡准确。我对结果不满意。

如果我以这样的方式对我的数据集进行采样，那么这是一个好主意吗？在1000个YES和1000个NO的情况下，我会对它进行平均分配？

2 个答案:

答案 0 :(得分：0)

处理类不平衡的一种方法是对较大的类进行欠采样，使类分布大约为一半。

你的问题的答案是肯定的，假设1000是较小类的大小，那么你就会失去较少的大类数据点。

注意：从大型数据点中进行选择时，请尝试省略那些缺失值较多的数据点。

答案 1 :(得分：0)

您还可以在建模时给予重量。你可以为少数民族分配更高的权重，它将弥补不平衡。