场景:我正在尝试构建一个随机森林回归器来加速探测一个大的相空间。我正在使用 python/scikit-learn 执行回归,并且我能够获得一个模型,该模型在将已知数据拆分为训练/测试集时具有相当低的交叉验证错误。
现在我想开始询问我的模型有多自信(我对置信区间和预测区间之间的差异有点困惑)。目前我知道如何在给定数据,现在我希望能够衡量不确定性。如果模型足够不确定,我希望它让我知道,以便我可以将该案例添加到训练集中。
我的印象是随机森林是一种集成方法。我们生长棵决策树,然后我们的预测器由下式给出: 其中是一些权重,是第个树的预测值。
也许最简单(而且绝不是最有希望)的方法是尝试采用类似方差的方法:
本指南似乎建议我们可以使用每棵树作为观察进行分位数分析。不幸的是,我不确定我是否遵循这个逻辑,因为在我看来,即使对于训练集中的数据点,树之间也应该存在一些差异。
这篇文章似乎提到了上述方法的缺陷,但不幸的是,我不能真正遵循他们建议我们做的事情(因为我在 R 中的技能不是他们可以做到的)。有人可以权衡这是否是我应该跟随的火车,也许可以帮助我了解发生了什么?我不明白在哪里对样本进行假设。在 Python 中看到类似的代码可能对我很有帮助。
这篇论文似乎也很有用,但这些术语/符号完全超出了我的专业范围,而且我现在基本上无法阅读。
虽然我在应用程序级别从事统计工作,但距离上一次正式课程已经有一段时间了。所以对我来说进入障碍的一部分是术语/符号的使用。
编辑以提供更多细节。