机器算法验证 - 与 bagging 技术相关的困惑 - 吾爱随笔录

与 bagging 技术相关的困惑

机器算法验证方差偏见装袋

2022-03-11 19:54:15

我有点困惑。我正在阅读这篇论文，其中解释了 bagging 技术极大地减少了方差，并且仅略微增加了偏差。我不明白它是如何减少方差的。我知道什么是方差和偏差。偏差是模型无法学习数据。方差类似于过拟合。我只是不明白装袋如何减少方差。

1个回答

非正式地，当模型的方差太高时，它可能“太适合”数据。这意味着，对于不同的数据，学习算法找到的模型的参数会有所不同，或者换句话说，学习到的参数会有很大的差异，这取决于训练集。

你可以这样想：数据是从一些真实世界的概率分布中采样的，模型根据采样的数据学习参数。因此，给定数据的模型的学习参数存在一些条件概率分布。这种分布有一些差异，有时甚至很高。个模型进行平均时，就好像您已经从这个条件概率分布中采样了次。形成 PD个样本的平均值总是比来自同一分布的一个样本具有更小的方差。直观地看一下高斯 PD，平均值为 0，，一个样本正好 $N$ $N$ $N$ $\sigma = 1$ $0$ 均值和方差 . 但是如果你采样次并平均结果，操作结果的平均值仍然是，但方差是。 $1$ $N$ $0$ $\frac{1}{N}$

另请注意，这只是非常非正式的直觉，您最好从一些可靠的可靠来源阅读偏差/方差。我推荐统计学习要素二： http ://www-stat.stanford.edu/~tibs/ElemStatLearn/

你可以免费下载这本书，有一整章是关于偏差/方差分解的。

其它你可能感兴趣的问题

上一篇使用 Spearman 的 rho 报告确定系数下一篇Xorshift RNG 对于蒙特卡洛方法是否足够好？如果不是，有什么替代品？