在论文Mutual Information Neural Estimation中,作者为网络推导出以下梯度 并说它有偏见,因为在第二项中,期望超过了小批量的样本。
然而,据我所知,SGD 确实是高方差,但它不应该引入任何偏差。是不是我之前的理解错了?
此外,作者说,通过用指数移动平均线代替分母中的期望,可以减少偏差。为什么这有意义?
在论文Mutual Information Neural Estimation中,作者为网络推导出以下梯度 并说它有偏见,因为在第二项中,期望超过了小批量的样本。
然而,据我所知,SGD 确实是高方差,但它不应该引入任何偏差。是不是我之前的理解错了?
此外,作者说,通过用指数移动平均线代替分母中的期望,可以减少偏差。为什么这有意义?
对于一个典型的损失函数和真实梯度,SGD梯度的期望是其中是我们批次中的数据点,大小为 1。这显然是无偏的。
论文中的损失函数形式为,梯度
请注意,SGD 梯度是有偏差的。
但是,我们只对分子“做了 SGD”并计算了分母的确切期望值是什么?这个伪 SGD 梯度确实是无偏的。
尽管在每个 SGD 步骤重新计算分母成本太高,但如果我们假设的参数不会变化太快(因此也不会快速变化),估计分母的一种方法是使用指数加权移动平均线。这将使我们得到一个相对公正的估计。