批量归一化的传统方法是估计批次的均值和方差,并使用它来归一化不同层的数据,同时保留稍后应在测试/预测时使用的移动平均值。我的问题是,在训练时也使用移动平均线不是更好吗?
当然,一开始情况会更糟,但如果你使用,例如,具有小初始衰减的指数移动平均线(你可以稍后增加它),移动平均线在几个小批量后就可以了。然后,如果你碰巧得到一个 mini-batch,它比平时的平均值更远,你会不会宁愿使用与测试时相同的平均值进行训练?
极端情况显然是每批一个示例的在线学习设置;基本上每个示例在训练时都会变为零,但在测试时不会。