在阅读互信息神经估计 (MINE) 论文 [ 1 ] 时,我遇到了第3.2 节纠正随机梯度的偏差。所提出的方法需要计算梯度
在哪里表示对小批量的期望操作, 和是一个神经网络参数化. 作者声称这种梯度估计是有偏差的,可以通过简单地执行指数移动平均滤波来减少这种偏差。
有人可以给我一个提示来理解这两点:
- 为什么是有偏见,并且
- 指数移动平均线如何减少偏差?
在阅读互信息神经估计 (MINE) 论文 [ 1 ] 时,我遇到了第3.2 节纠正随机梯度的偏差。所提出的方法需要计算梯度
在哪里表示对小批量的期望操作, 和是一个神经网络参数化. 作者声称这种梯度估计是有偏差的,可以通过简单地执行指数移动平均滤波来减少这种偏差。
有人可以给我一个提示来理解这两点:
MINE 中的下限如下:
这里表示我们从 n iid 样本中得到的经验分布
请注意,在上面的等式中,第一项是根据联合分布计算的,而第二项是根据和. 在 MINE 的实现中,这些统计数据是根据来自minibatch的数据计算的。边际分布是通过沿批次维度打乱 Z(或 X)的值来获得的。因此,在这种情况下,梯度如下。