我已多次阅读此声明,但从未遇到过证明。我想尝试自己制作一个,但我什至不确定要使用什么符号。谁能帮我这个?
如何正式证明随机森林中的 OOB 错误是无偏的?
我不知道这是否是最终答案,但这些东西不能发表评论。
经常使用OOB错误无偏见的说法,但我从未见过演示。经过多次搜索,我终于在仔细阅读了 Breiman 的 RF部分的著名页面:out-of-bag (oob) error estimation 后给出。如果您没有注意到(因为我错过了一段时间),最后一个命题很重要:这已在许多测试中证明是公正的。所以,没有正式推导的迹象。
不仅如此,似乎证明了对于变量多于实例的情况,这个估计量是有偏差的。见这里。
对于袋内错误,有一个正式的推导。袋内错误是引导错误,有大量文献以“Efron 和 Tibshirani 的 Bootsrap 简介”开头。然而,我看到的最干净的演示在这里。
如果您想开始寻找证明,我认为一个很好的起点是将这个估计与 N 折交叉验证进行比较。在ESTL中,当样本数量趋于无穷大时,极限中存在一个恒等式。
为什么你期望 oob 错误是公正的?
与“原始”森林相比,替代森林中使用的树木(至少)少了 1 个可用的训练案例。我预计这会导致一个小的悲观偏见,大致相当于留一法交叉验证。
大约有的替代森林中的“原始”森林的树的数量实际上是用遗漏的情况进行评估的。因此,我预计预测的方差会更高,这将导致进一步的悲观偏差。
这两种想法都与分类器的学习曲线和所讨论的应用程序/数据密切相关:第一个与作为训练样本大小函数的平均性能有关,第二个与该平均曲线周围的方差有关。
总而言之,我希望你最多能够正式证明 oob 是包含的随机森林性能的无偏估计量“原始”森林的树木数量,并在原始训练数据的
另请注意,Breiman将“无偏见”用于自举,就像他将其用于交叉验证一样,我们也有一个(小的)悲观偏见。来自实验领域,我可以说两者实际上都是无偏见的,因为偏差通常比方差问题小得多(如果你有足够的案例,你可能不会使用随机森林) .