机器算法验证 - 为什么bagging会增加偏差？ - 吾爱随笔录

为什么bagging会增加偏差？

机器算法验证机器学习集成学习装袋偏差-方差-权衡

2022-04-07 22:25:39

在机器学习中，为什么 bagging 会增加偏差？我读过使用较少的数据会导致对参数的估计更差，但是无论样本量如何，参数的预期值都不是常数吗？

1个回答

原则上，装袋是为了减少拟合值的方差，因为它增加了拟合值的稳定性。此外，根据经验，我会说：“袋装程序和原始程序的偏差幅度大致相同”（Bühlmann & Yu，2002 年）。这是因为 bagging 允许我们通过实际上平滑学习者的决策边界来近似相对复杂的响应面。

也就是说，您提出了一个关于“使用更少数据”进行装袋的好观点；我的理解是，当学习者可能很弱时，这是一个问题。数据越少，学习任务就越困难。一个明显的例子是一个不平衡的数据集，其中一个积极的例子是相当罕见的。在这种情况下，bagging ensemble 的简单多数规则可能弊大于利，因为它确实更有可能对稀有类进行错误分类——Berk 的“回归视角的统计学习”，Sect。4.4. 关于Bagging 的一些限制” 也涉及到这一点。让我注意到，这种恶化的性能并不完全令人惊讶；装袋或任何其他程序都不是灵丹妙药，因此预计会有一些情况下，其他有用的程序（这里是装袋）会使事情变得更糟。

我认为Bühlmann & Yu，2002 年的论文：“ Analyzing bagging ”是关于这个问题的规范参考，如果你想进一步探索的话。我也喜欢Strobl 等人 2007 年发表的论文：“ Bias in random forest variable important measure: Illustrations, sources and a solution ”，它主要关注变量选择，但很好地说明了 bagging 如何影响该任务中的偏差。

其它你可能感兴趣的问题

上一篇如果时间序列是非平稳的怎么办？下一篇训练平衡数据集，用于不平衡数据集？