以前的问题已经询问了如何为从随机森林或增强回归树得出的估计创建预测区间,这与使用线性回归模型很容易实现类似。
对此问题的评论将 RMSE 描述为残差标准差的估计值,支持使用 RMSE 构建围绕 BRT 或 RF 的预测(或估计)的区间。
我认为 CART 方法放宽了对同方差性的要求是否正确?如果是这样,似乎使用在整个残差范围内计算的 RMSE 会导致某些区域的间隔过宽,而另一些区域的间隔太窄。那么估计间隔的唯一方法似乎是通过引导(BRT)或访问树的个体预测(RF)。
[同样的问题](RMSE 的置信区间)吸引了关于构建残差标准差的置信区间的建议,假设平均残差为零,具有正态分布,基于 RMSE 周围的卡方统计量。
SD上的这种间隔将如何使用?将 SD 的高端 CI 用作 CI 中的值,例如是否是有效的(如果保守的话)区间?鉴于它具有“嵌套”置信度,您还能将特定的“置信度”值(例如 95%)归因于这样的区间吗?