在名为Generative Adversarial Nets的研究论文中已经提到,生成器需要最大化功能而不是最小化 因为前者比后者提供了足够的梯度。
在实践中,上述方程可能无法提供足够的梯度好好学习。在学习初期,当很穷,可以以高置信度拒绝样本,因为它们与训练数据明显不同。在这种情况下,饱和。而不是训练尽量减少我们可以训练 G 最大化. 该目标函数导致相同的动力学固定点和但在学习的早期提供了更强的梯度。
梯度是包含输出与输入的偏导数的向量。在特定点,梯度是实数向量。这些梯度通过提供与方向相关的信息和相反方向的步长大小,在训练阶段很有用。这是我对渐变的理解。
足够或强梯度是什么意思?它是梯度的范数还是梯度向量的其他度量?
如果可能的话,请用数字展示一个强梯度和弱梯度的例子,以便我快速理解。