分档不平衡数据

时间:2016-02-07 09:15:35

标签: machine-learning dataset data-mining binning discretization

我有一个不平衡的数字数据集,如下所示:

Data set

我需要将数据分成8个分区,但是如果我将分区设置为相同大小,我会将所有数据分别放入两个分区,其余分别为空。

当存在大量数据点时,是否有统计或数学方法可以使用细粒度数据箱对数据进行离散化,然后在数据点较少时使其成为更粗粒度的数据块?

1 个答案:

答案 0 :(得分:0)

可以对数据进行排序并根据 rank 对其进行分类。有时也被称为“深度”。因此,如果排序后的数据是

[1, 2, 4, 8, 16, 32]

你想要三个箱子。你会用

[1, 2] [4, 8] [16, 32]

但是定义bin中心和边界的好逻辑很难吗?您可能会使用以下方式:1.5,6,24作为中心,最大值和最小值的中间值作为单元格边界:[1:3] [3:12]和[12:32]。

垃圾箱尺寸不再有趣因为它们都预计会同样大吗?但是,如果您有多个变量,则箱的组合可能低于平均值或高于预期值。即表示变量之间存在某种依赖关系。

相关问题