如何计算随机森林预测的预测区间?

机器算法验证 引导程序 随机森林 预测区间
2022-03-20 20:13:23

在回归问题中,随机森林通过对森林中每棵树的结果进行平均来对每种情况进行预测。我想围绕每个预测画一个 95% 的预测区间。线性模型的预测方法有一个不错的选择interval="prediction",但随机森林没有这样的选择(至少在 R 包 randomForest 中)。我可以假设单个树的案例预测是正态分布的并应用公式http://mathurl.com/bbvuvx9还是应该通过引导来确定它?如果是这样,如何做到这一点?

2个回答

我假设您在谈论持续响应案例。如果是这样,我会推荐在quantregForest基本包之上分层randomForest并提供条件分位数预测的包。文档非常好。它不是假设高斯分布,而是从终端节点构建经验密度函数。

ranger包支持分位数预测,因此支持预测区间:predict(ranger_fit, type = "quantile", quantiles = c(0.025, 0.975)).