使用具有派生置信区间的 RMSE,生成估计的预测区间

机器算法验证 随机森林 大车 预测区间 助推 毫秒
2022-04-11 18:30:02

以前的问题已经询问了如何为从随机森林增强回归树得出的估计创建预测区间,这与使用线性回归模型很容易实现类似。

对此问题的评论将 RMSE 描述为残差标准差的估计值,支持使用 RMSE 构建围绕 BRT 或 RF 的预测(或估计)的区间。

我认为 CART 方法放宽了对同方差性的要求是否正确?如果是这样,似乎使用在整个残差范围内计算的 RMSE 会导致某些区域的间隔过宽,而另一些区域的间隔太窄。那么估计间隔的唯一方法似乎是通过引导(BRT)或访问树的个体预测(RF)。

[同样的问题](RMSE 的置信区间)吸引了关于构建残差标准差的置信区间的建议,假设平均残差为零,具有正态分布,基于 RMSE 周围的卡方统计量。

SD上的这种间隔将如何使用?将 SD 的高端 CI 用作 CI 中的值,例如是否是有效的(如果保守的话)区间?鉴于它具有“嵌套”置信度,您还能将特定的“置信度”值(例如 95%)归因于这样的区间吗?x^±zSD^u

1个回答

据我了解,CART 没有同方差性假设。如果有的话,它假定每个组件的方差独立于所有其他组件的方差。它也没有考虑变量的相关性。

正态性假设是有问题的。这很方便,但不一定正确。经常有人对“大数定律”挥手致意,但现实世界 impo 喜欢挫败这些事情。

您是否考虑过使用分位数回归森林进行估计,或者这是问题的一部分?