一个学习器的集合导致最好的模型结果似乎已成为不言而喻——例如,单个模型赢得 Kaggle 等比赛的情况变得越来越少。有没有理论解释为什么合奏如此有效?
为什么合奏效果如此不合理
对于一个特定的模型,你可以给它提供数据,选择特征,选择超参数等等。与现实相比,它犯了三种错误:
- 偏差(由于模型复杂度太低,数据中存在抽样偏差)
- 方差(由于数据中的噪声、数据过度拟合)
- 您尝试预测的现实的随机性(或数据集中缺乏预测特征)
合奏平均了这些模型的数量。由于明显的原因,由于采样偏差导致的偏差不会被修复,它可以修复一些模型复杂度偏差,但是在不同的模型中产生的方差错误是非常不同的。特别是低相关模型在这方面会犯非常不同的错误,某些模型在特征空间的某些部分表现良好。通过对这些模型进行平均,您可以大大减少这种差异。这就是合奏发光的原因。
选择的答案很棒,但我想补充两点:
- 已经观察到,平均人类预测比任何个人预测都能提供更好的预测。这就是众所皆知的智慧。现在,您可能会争辩说这是因为有些人拥有不同的信息,所以您实际上是在平均信息。但是不,即使对于诸如猜测罐子中豆子数量之类的任务也是如此。我假设这与上面给出的关于数据挖掘模型的一些原因有关。
- 一些技术,例如神经网络中的 dropout 方法(在训练期间的每次迭代中,您只使用神经网络的一部分)给出类似于神经网络集合的结果。基本原理是您有效地强制节点执行与其他节点相同的预测器工作,从而有效地创建元集合。我这样说是为了表明我们可以在传统模型中引入集成的一些优点。
由于理论和实践原因,集成在预测中获胜。
如果我们的意思是根据对先前事件的了解按顺序预测下一个事件,则有一个最佳预测的基本理论。所罗门诺夫预测(Solomonoff 1964)在几个方面被证明是最优的,包括它“将学会正确预测任何可计算的序列,只需要绝对最少的数据量。” (Hutter, Legg & Vitanyi 2007) Solomonoff 预测器根据程序的 Kolmogorov 复杂性和程序分配给数据的概率,结合 Epicurean(“保留所有理论”)和贝叶斯框架中的奥卡姆(“更喜欢简单的理论”)哲学。
Solomonoff 预测的最优性解释了您所指的稳健发现:对模型、来源或专家进行平均改进了预测,平均预测甚至优于最好的单一预测器。在实践中看到的各种集成方法可以看作是 Solomonoff 预测的可计算近似——有些像 MML (Wallace 2005) 明确地探索了这种联系,尽管大多数人没有。
Wallace (2005) 指出,Solomonoff 预测器并不吝啬——它保留了无限的模型池——但大部分预测能力不可避免地落在相对较小的模型集上。在某些领域,单个最佳模型(或几乎无法区分的模型系列)可能占预测能力的很大一部分并且优于通用集成,但在几乎没有理论的复杂领域中,很可能没有单个系列能够捕获大部分后验概率,因此,对可能的候选者进行平均应该可以改善预测。为了赢得 Netflix 奖,Bellkor 团队混合了 450 多个模型(Koren 2009)。
人类通常会寻求一个好的解释:在像物理学这样的“高理论”领域,这些解释很有效。事实上,如果它们捕捉到了潜在的因果动态,它们应该几乎是无与伦比的。但是,在现有理论与现象不完全吻合的情况下(例如,电影推荐或地缘政治),单一模型将表现不佳:所有模型都不完整,因此不应占主导地位。因此,最近对集成(机器学习)和人群智慧(专家)的重视,以及 IARPA ACE 等项目的成功,特别是良好判断项目(Tetlock & Gardiner 2015)。
参考
- M. Hutter、S. Legg 和 P. Vitanyi,“算法概率”,Scholarpedia,第一卷。2,2007 年,第 2 页。2572.
- Y. Koren,“Netflix 大奖的 BellKor 解决方案”,2009 年。
- 所罗门诺夫,雷(1964 年 3 月)。“归纳推理的形式理论第一部分”(PDF)。信息与控制 7 (1): 1-22。doi:10.1016/S0019-9958(64)90223-2。
- 所罗门诺夫,雷(1964 年 6 月)。“归纳推理的形式理论第二部分”(PDF)。信息与控制 7 (2): 224–254。doi:10.1016/S0019-9958(64)90131-7。
- PE Tetlock,专家政治判断:它有多好?我们怎么知道?,普林斯顿大学出版社,2005 年。
- Tetlock, PE 和 Gardner, D. (2015)。超级预测:预测的艺术与科学。纽约:皇冠。
- CS Wallace,最小消息长度的统计和归纳推理,Springer-Verlag,2005。