不平衡数据集的Knn分类器

时间:2019-06-24 07:02:09

标签: machine-learning

我想估计一下分类器在我的不平衡数据集上的工作情况。当我尝试从sklearn中拟合KNN分类器时,它对少数派一无所知。所以我所做的是我用k = R拟合分类器(其中r是不平衡比1:R),并且预测了每个测试点的概率,并且将分类器的概率输出分配给少数类,将其分配给少数类大于R(其中r是不平衡比1:R)。我这样做是为了估计分类器的执行情况(F1-分数)。我不需要生产中的分类器。我在做什么对吗?

1 个答案:

答案 0 :(得分:0)

由于您已在注释中提到您不想使用重采样,因此,解决方法之一就是分批处理。从多数类创建多个数据集,以使它们与少数类的比例为1:1。训练多个模型,每个模型获得多数集的一部分和所有少数派的一部分。对所有模型进行预测并从中投票,然后决定最终结果。

但是我建议在此方法上使用SMOTE。