决策树交叉验证问题

时间:2013-02-08 13:03:47

标签: tree data-mining decision-tree cross-validation

所以即时编写决策树程序。 假设我有一个1000个实例的数据集。 据我了解 - 通过交叉验证,我将数据集拆分为900-100组。每一次 使用不同的900集创建树,使用100集进行测试

我不明白的是这些问题: 1.我使用哪棵树作为我的最终决策树(选择误差最小的树不是一个好选择,因为我猜它可能是因为过度拟合) 2.交叉验证仅用于估计最终树中的错误? 3.我发现了一些关于交叉验证的不同算法,有些使用了相同的分割标准,有些使用不同的算法来选择最好的树 - 你能指出我一个有信息的好地方所以我可以弄清楚到底是什么我需要?或解释你自己?

谢谢!

1 个答案:

答案 0 :(得分:2)

Cross validation用于估算模型预测准确的方式。

最好的树应该包含最好的分类器。即,可以很好地分隔数据的属性,因此您可以使用该属性开始构建决策树。

我建议您搜索WikipediaUncle Google以获取有关decision trees的更多信息