机器算法验证 - 批量归一化如何计算训练后的总体统计信息？ - 吾爱随笔录

我正在阅读批量标准化 (BN) 论文(1)，它说：

为此，一旦网络经过训练，我们使用人口而不是 mini 的标准化\ hat { -批次，统计。
$\hat{x} = \frac{x - E [x]}{\sqrt{V a r [x] + ϵ}}$ $\hat{x} = \frac{x - E[x]}{ \sqrt{Var[x] + \epsilon}}$

我的问题是，它如何计算这个人口统计数据以及在什么训练集（测试、验证、训练）上？我以为我知道这意味着什么，但一段时间后，我意识到我不确定它是如何计算的。我假设它试图估计真实的均值和方差，尽管我不确定它是如何做到的。我可能会根据整个数据集计算均值和方差，并使用这些时刻进行推理。

然而，让我怀疑我错的是他们在同一节后面关于无偏方差估计的讨论：

我们使用无偏方差估计期望超过训练和的mini-batches是它们的样本方差。 $Var[x] = \frac{m}{m-1} \cdot E_{\mathcal{B}}[\sigma^2_{\mathcal{B}}]$ $m$ $\sigma^2_{\mathcal{B}}$

由于我们谈论的是人口统计数据，因此对这篇论文的评论感觉就像（对我而言）不知从何而来，并且不确定他们在说什么。他们只是（随机）澄清他们在训练期间使用无偏估计还是使用无偏估计来计算总体统计？

1：Ioffe S. 和 Szegedy C. (2015)，
“批量标准化：通过减少内部协变量偏移来加速深度网络训练”，
第 32 届机器学习国际会议论文集，法国里尔，2015 年
。机器学习研究杂志： W&CP 第 37 卷