为什么集成平均实际上可以改善结果?

数据挖掘 梯度下降
2022-02-11 03:11:58

为什么集成平均适用于神经网络?这是 dropout 等事物背后的主要思想。

考虑下图定义的超曲面示例(白色表示最低成本)。我们有两个网络:黄色和红色,每个网络有 2 个权重,并调整它们以最终出现在白色部分。

在此处输入图像描述

显然,如果我们在训练后对它们进行平均,我们最终会处于空间的中间,那里的误差非常高。

1个回答

我认为您的问题存在误解。在您的问题中,您暗示您取网络权重的平均值,您不应该这样做。相反,你平均的是不同网络的预测。出于这个原因,如果你平均两个正确的预测结果将是一个正确的预测,你正在考虑的问题不存在。