随机梯度下降是否有偏差?

机器算法验证 偏见 互信息 坡度 随机梯度下降
2022-03-19 03:19:35

在论文Mutual Information Neural Estimation中,作者为网络推导出以下梯度 并说它有偏见,因为在第二项中,期望超过了小批量的样本。

θV(θ)=E[θTθ]E[eTθθTθ]E[eTθ]

然而,据我所知,SGD 确实是高方差,但它不应该引入任何偏差。是不是我之前的理解错了?

此外,作者说,通过用指数移动平均线代替分母中的期望,可以减少偏差。为什么这有意义?

1个回答

对于一个典型的损失函数和真实梯度,SGD梯度的期望是其中是我们批次中的数据点,大小为 1。这显然是无偏的。L=ExiD[f(xi)]L=E[f(xi)]E[f(x)]x

论文中的损失函数形式为,梯度L=logE[ef(x)]

L=1E[ef(x)]E[ef(x)]=E[f(x)ef(x)]E[ef(x)]

请注意,SGD 梯度是有偏差的。f(x)ef(x)ef(x)=f(x)

但是,我们只对分子“做了 SGD”并计算了分母的确切期望值是什么?这个伪 SGD 梯度确实是无偏的。f(x)ef(x)E[ef(x)]

尽管在每个 SGD 步骤重新计算分母成本太高,但如果我们假设的参数不会变化太快(因此也不会快速变化),估计分母的一种方法是使用指数加权移动平均线。这将使我们得到一个相对公正的估计。ff(x)