在 MINE 论文中,为什么是G^乙G^B有偏差,指数移动平均线如何减少偏差?

人工智能 神经网络 深度学习 文件 生成对抗网络 随机梯度下降
2021-10-27 06:31:13

在阅读互信息神经估计 (MINE) 论文 [ 1 ] 时,我遇到了第3.2 节纠正随机梯度的偏差所提出的方法需要计算梯度

G^B=EB[θTθ]EB[θTθeTθ]EB[eTθ],

在哪里EB表示对小批量的期望操作B, 和Tθ是一个神经网络参数化θ. 作者声称这种梯度估计是有偏差的,可以通过简单地执行指数移动平均滤波来减少这种偏差。

有人可以给我一个提示来理解这两点:

  1. 为什么是G^B有偏见,并且
  2. 指数移动平均线如何减少偏差?
1个回答

MINE 中的下限如下:

I(X;Z)^n=supθΘEPXZ(n)[Tθ]logEPX(n)P^Z(n)[eTθ]

这里P^(n)表示我们从 n iid 样本中得到的经验分布P.

请注意,在上面的等式中,第一项是根据联合分布计算的,而第二项是根据XZ. 在 MINE 的实现中,这些统计数据是根据来自minibatch的数据计算的。边际分布是通过沿批次维度打乱 Z(或 X)的值来获得的。因此,在这种情况下,梯度如下。

G^B=EB[θTθ]EB[θTθeTθ]EB[eTθ],

  1. 如前所述,边缘的期望不是根据真实边缘分布(即整个数据集)计算的,而是根据小批量中的打乱样本计算的。因此,上述梯度GB是有偏见的。
  2. 当我们维持指数移动平均线 EB[eTθ],我们还结合了来自当前小批量之外的统计数据(即在整个数据集上)。这是试图获得真实边际估计的近似值。梯度中的分母项允许这种计算成本低的偏差减少技巧。