我正在阅读批量归一化 (BN) 论文(1),但不明白需要使用移动平均线来跟踪模型的准确性,即使我接受这是正确的做法,我也不明白他们到底在做什么。
据我了解(这可能是错误的),该论文提到一旦模型完成训练,它就会使用总体统计数据而不是小批量统计数据。在讨论了一些无偏估计之后(这对我来说似乎是切线的,我不明白为什么它会谈论这个),他们会说:
相反,我们使用移动平均线来跟踪模型训练时的准确性。
这是让我感到困惑的部分。为什么他们使用移动平均线来估计模型的准确性以及在哪些数据集上?
通常人们会做什么来估计他们的模型的泛化,他们只是跟踪他们的模型的验证错误(并可能提前停止他们的梯度下降以进行正则化)。然而,批量标准化似乎正在做一些完全不同的事情。有人可以澄清什么以及为什么它在做不同的事情吗?
1 : Ioffe S. 和 Szegedy C. (2015),
“批标准化:通过减少内部协变量偏移来加速深度网络训练”,
第 32 届机器学习国际会议论文集,法国里尔,2015 年
。机器学习研究杂志: W&CP 第 37 卷