来自 BatchNorm 论文第 4.2.3 节(https://arxiv.org/abs/1502.03167),
集成预测基于组成网络预测的类概率的算术平均值。
这样做有理论依据吗?对单个概率进行平均后的输出值是否仍然是有效概率?
来自 BatchNorm 论文第 4.2.3 节(https://arxiv.org/abs/1502.03167),
集成预测基于组成网络预测的类概率的算术平均值。
这样做有理论依据吗?对单个概率进行平均后的输出值是否仍然是有效概率?
从总概率定律我们知道,对于不相交的事件,我们可以计算:
基本上,如果是发出概率的不同网络,并且是不相交的假设空间,那么结果就是概率。
在进行简单平均时,他们假设对于所有;离散均匀分布。
这种平均值的最大问题是没有人真正检查假设是否实际上是不相交的,或者为每个假设分配相等的概率是否有意义。假设通常最终彼此非常相似。结果,从数学上讲,结果仍然是概率,但从贝叶斯平均的角度来看,这不是一个经过深思熟虑的先验。
正如我在评论中已经注意到的那样,您可以在我的其他答案和提供的参考资料中找到您问题的部分答案以及更多详细信息。
您似乎在问,“我们怎么知道概率预测的平均值是有效概率?” ,至少我是这么理解的。您的问题是关于采用多个概率预测的平均值来进行汇总预测,因此它紧密地求助于线性意见池(Stone,1961 年)。
首先要注意的是,概率预测实际上是一个条件概率分布。取算术平均值是用和取加权和的特殊情况,其中,所以它是凸组合。概率分布的加权和导致混合分布
其中是一些概率密度(或质量)函数。
正如Cowboy Trader 已经说过的,您可以根据概率的基本定律来考虑这一点。鉴于权重的属性,我们可以将它们视为概率,最有意义的解释是将它们视为选择这些预测的先验概率。在这种情况下,它们的联合分布是
从条件概率的定义中得出什么。当我们有联合分布时,我们可以通过总概率定律计算它的边际分布
如果您还想问“人们为什么使用它?” ,那么答案是:因为它可以正常工作。
是的,有理论基础,不,我们不知道它为什么起作用。在互联网上查找“预测组合谜题”,例如此演示文稿,第 20 页。不知何故,多个模型的简单平均值在实践中似乎优于单一模型预测和加权平均预测。为什么会发生这种情况有很多假设,但在预测文献中没有达成共识。这可能是因为加权平均组合中的最佳权重有太多噪音,所以最终简单平均效果更好
是的,有一个理论,它叫做集成学习。bagging(引导聚合)的方法依赖于它。这例如在随机森林中使用。
直观的想法是,通过对具有非常低偏差但高方差的模型进行平均,您可以减少该方差,同时仍然保持低偏差。这就是随机森林所发生的情况,您通常使用可以过度拟合的深度树(即低偏差-高方差),但平均它们的预测可以减少这种过度拟合。如果所有模型的训练集都是独立的,但实际上你使用 bagging,这当然效果最好。
在 DL 模型中,集成的多样性来自不同的超参数:它们在此处突出显示不同的初始化、dropout 级别、BN 与否。
至于你问题的第二部分,我认为Cowboy Trader回答得最好。但是,集成也适用于不是概率的输出,例如在回归的情况下。