我能够理解“装袋减少方差同时保持偏差”背后的直觉。
这种直觉背后的数学原理是什么?我咨询了几位专家,他们无法很好地解释数学。
我能够理解“装袋减少方差同时保持偏差”背后的直觉。
这种直觉背后的数学原理是什么?我咨询了几位专家,他们无法很好地解释数学。
令人惊讶的是,专家们无法为您提供帮助,“统计学习的要素”中关于随机森林的章节很好地解释了这一点。
基本上,给定n idd 个随机变量,每个变量都有方差sigma²,这个变量的均值方差将为sigma²/n。
由于随机森林是建立在数据的引导样本之上的,因此可以将单个树的输出视为同分布的随机变量。
因此,通过平均 B 树的输出,最终预测的方差由p *sigma² + (1 - p) sigma² / B 给出,其中p是树之间的成对相关性。对于大B,右项消失,方差减小到p*sigma²。
这不仅适用于决策树,而且适用于所有可装袋的模型。它对决策树特别有效的原因是它们固有地具有低偏差(没有做出假设,例如特征和响应之间的线性关系),但方差非常高。
由于只能减少方差,因此在随机森林和树装袋的情况下,将决策树构建为节点纯度。(建立节点纯度最大化单个树的方差,即它们完美地拟合数据,同时最小化偏差。)