在这种情况下训练的强梯度或足够梯度是什么意思?

人工智能 训练 术语 文件 生成对抗网络 坡度
2021-10-31 09:35:18

在名为Generative Adversarial Nets的研究论文中已经提到,生成器需要最大化功能logD(G(z))而不是最小化 log(1D(G(z)))因为前者比后者提供了足够的梯度。

minGmaxDV(D,G)=ExPdata[logD(x)]+Ezpz[log(1D(z))]
在实践中,上述方程可能无法提供足够的梯度G好好学习在学习初期,当G很穷,D可以以高置信度拒绝样本,因为它们与训练数据明显不同。在这种情况下,log(1D(G(z)))饱和。而不是训练G尽量减少log(1D(G(z)))我们可以训练 G 最大化logD(G(z)). 该目标函数导致相同的动力学固定点GD在学习的早期提供了更强的梯度。

梯度是包含输出与输入的偏导数的向量。在特定点,梯度是实数向量。这些梯度通过提供与方向相关的信息和相反方向的步长大小,在训练阶段很有用。这是我对渐变的理解。

足够或强梯度是什么意思?它是梯度的范数还是梯度向量的其他度量?

如果可能的话,请用数字展示一个强梯度和弱梯度的例子,以便我快速理解。

1个回答

术语“梯度不足”或“梯度不够强”通常意味着梯度向量的幅度太小或接近于零,无法正确驱动优化。

没有足够的梯度类似于具有非常低的学习率——它们不仅很慢(在收敛方面),而且还会使优化朝着糟糕的方向漂移并陷入局部最小值。