Question

我已经从数据集中生成了模型，并尝试根据cohen_kappa得分和预测准确性找到最佳算法。我针对各种算法运行它，因为我将获得的数据类型是未知的，因此通过比较它们的kappa和准确度来找到最佳算法。我的数据经过10次交叉验证。

我在随机森林，决策树，SGDC分类器，感知器，被动攻击性，逻辑回归，梯度提升，朴素贝叶斯，K邻居之间进行了比较。

在我的例子中，我将Random Forest作为分类的最佳算法，Kappa = 1且准确度= 0.94

我的分类是2类分类，其条件如ResponseTime＆gt; 200。

现在，当我尝试运行预测时，对于某些因变量值，我得到了正确的预测，但对于某些人来说，这是完全错误的。

我尝试了所有不同的算法，但预测结果非常不一致。

由于

Answer 1

您必须仔细查看错误的预测功能值。可能是您的数据集中存在矛盾数据。例如，如果您有这样的观察和标签，无论您如何努力，如何交叉验证或堆叠您的算法，您将永远不会获得100％的准确性。 75％的准确度是这里的最高分。

0 => 0
0 => 0
0 => 0
0 => 1 <- this sample have wrong label
1 => 1
1 => 1
1 => 1
1 => 0 <- this sample have wrong label