在Hadoop上并行执行决策树ID3 / C4.5

时间:2012-10-15 06:06:09

标签: hadoop parallel-processing decision-tree id3 c4.5

我想在ID3/C4.5上实施决策树Hadoop。任何人都可以通过想法继续前进。

我很清楚算法,但我需要知道如何并行化它们。

1 个答案:

答案 0 :(得分:0)

我会考虑将一次属性选择迭代作为一个MapReduce作业。按照这个想法,您可以为属性上的每个映射器分配以检查信息增益,并且在reduce阶段(使用单个reducer),您可以选择最佳属性。
如果计算一台机器上的单次迭代(超过所有属性)比作业开始开销(大约20-40秒)稍微长一点,我会认为这种方法是实用的。