我们如何从数学上解释“Bagging 在保持偏差的同时减少方差”这一事实?

机器算法验证 机器学习 随机森林 重采样 装袋 偏差-方差-权衡
2022-03-23 05:50:20

我能够理解“装袋减少方差同时保持偏差”背后的直觉。

这种直觉背后的数学原理是什么?我咨询了几位专家,他们无法很好地解释数学。

1个回答

令人惊讶的是,专家们无法为您提供帮助,“统计学习的要素”中关于随机森林的章节很好地解释了这一点。

基本上,给定n idd 个随机变量,每个变量都有方差sigma²,这个变量的均值方差将为sigma²/n

由于随机森林是建立在数据的引导样本之上的,因此可以将单个树的输出视为同分布的随机变量。

因此,通过平均 B 树的输出,最终预测的方差由p *sigma² + (1 - p) sigma² / B 给出,其中p是树之间的成对相关性。对于大B,右项消失,方差减小到p*sigma²

这不仅适用于决策树,而且适用于所有可装袋的模型。它对决策树特别有效的原因是它们固有地具有低偏差(没有做出假设,例如特征和响应之间的线性关系),但方差非常高。

由于只能减少方差,因此在随机森林和树装袋的情况下,将决策树构建为节点纯度。(建立节点纯度最大化单个树的方差,即它们完美地拟合数据,同时最小化偏差。)