bagging的理论保证是什么

机器算法验证 机器学习 数理统计 装袋
2022-01-21 11:13:32

我(大约)听说过:

bagging 是一种减少预测器/估计器/学习算法的方差的技术。

但是,我从未见过这种说法的正式数学证明。有谁知道为什么这在数学上是正确的?这似乎是一个被广泛接受/众所周知的事实,我希望直接提及这一点。如果没有,我会感到惊讶。另外,有谁知道这对偏见有什么影响?

是否还有其他任何人都知道并认为重要并愿意分享的方法套袋的理论保证?

1个回答

bagging 的主要用例是通过将低偏差模型聚集在一起来减少它们的方差。这在Bauer 和 Kohavi的标志性论文投票分类算法的实证比较:Bagging、Boosting 和 Variants ”中进行了实证研究。它通常像宣传的那样工作。

然而,与流行的看法相反,bagging 并不能保证减少方差最近和(在我看来)更好的解释是 bagging 减少了杠杆点的影响。杠杆点是那些不成比例地影响结果模型的点,例如最小二乘回归中的异常值。杠杆点很少但有可能对结果模型产生积极影响,在这种情况下,装袋会降低性能。看看Grandvalet的Bagging 均衡影响力” 。

所以,最后回答你的问题:bagging 的效果很大程度上取决于杠杆点。几乎没有理论保证存在,除了 bagging 线性增加了袋子大小方面的计算时间!也就是说,它仍然是一种广泛使用且非常强大的技术。例如,当使用标签噪声进行学习时,bagging 可以产生更强大的分类器

Rao 和 Tibshirani 在The out-of-bootstrap method for model averaging and selection中给出了贝叶斯解释:

从这个意义上说,自举分布代表了我们参数的(近似)非参数、非信息性后验分布。但是这种引导分布是轻松获得的——无需正式指定先验,也无需从后验分布中采样。因此,我们可以将引导分布视为穷人的“贝叶斯后验”。