Question

我使用以下参数设置运行h2o random forest

model_rf <- h2o.randomForest(x = predictors, y = labels,
                         training_frame = train_data, classification = T,
                         importance = T,
                         verbose = T, type = "BigData", ntree = 50)

跑步后我得到以下输出。

Model Details:
==============

H2ORegressionModel: drf
Model ID:  DRFModel__906d074da6ebf8057525b2b61c1c4c87 
Model Summary:
  number_of_trees model_size_in_bytes min_depth max_depth mean_depth      min_leaves  max_leaves mean_leaves
1       50.000000      2708173.000000 20.000000 20.000000   20.00000     4200.000000 5241.000000  4720.70000


H2ORegressionMetrics: drf
** Reported on training data. **
Description: Metrics reported on Out-Of-Bag training samples

MSE:  0.0006302392
R2 :  -0.03751038

以下是我的问题。

1）MSE和R2是什么意思？

2）如果它们是均方误差或类似的，为什么我得到这些指标用于分类设置？

3）如何获得gini或auc等其他指标？

4）我可以说，如果这两个参数因参数设置不同而减少，我的模型性能会有所改善吗？

Answer 1

以下是您的问题的答案： 1. MSE代表均方误差。从本质上讲，它测量的是估计量和估计值之间的差异.R2测量统计模型的拟合程度。

使用MSE，您可以判断错误分类数据的建模频率。
如果您使用的是Flow，请点击 Inspect ，然后点击 output-training_metrics 查看MSE，R2，AUC，gini等。
抱歉，我不确定我是否理解这个问题。您是否在询问减少的基尼系数或AUC是否等同于提高模型性能？

主治医生

h2o随机森林解释的误差度量

1 个答案: