下面是使用 R 的 iris 数据集的 h2o 梯度提升机器模型的简化示例。该模型经过训练以预测萼片长度。
该示例产生的 r2 值为 0.93,这似乎不切实际。我如何评估这些确实是现实的结果还是只是模型过度拟合?
library(datasets)
library(h2o)
# Get the iris dataset
df <- iris
# Convert to h2o
df.hex <- as.h2o(df)
# Initiate h2o
h2o.init()
# Train GBM model
gbm_model <- h2o.gbm(x = 2:5, y = 1, df.hex,
ntrees=100, max_depth=4, learn_rate=0.1)
# Check Accuracy
perf_gbm <- h2o.performance(gbm_model)
rsq_gbm <- h2o.r2(perf_gbm)
---------->
> rsq_gbm
[1] 0.9312635