有人可以简单地解释 R1 正则化函数吗?

人工智能 机器学习 生成对抗网络 正则化 r1-正则化
2021-11-17 07:20:16

我试图理解R1 正则化函数,包括抽象概念和公式中的每个符号。根据文章,R1的定义是:

它通过单独惩罚真实数据上的梯度来惩罚判别器偏离纳什均衡:当生成器分布产生真实数据分布并且判别器在数据流形上等于 0 时,梯度惩罚确保判别器无法创建一个与数据流形正交的非零梯度,而不会在 GAN 游戏中遭受损失。

R1(ψ)=γ2EpD(x)[Dψ(x)2]

我对 GAN 和反向传播的工作原理有基本的了解。我理解当判别者偏离纳什均衡时惩罚他的想法。其余部分变得模糊不清,即使它可能是基本的数学。例如,我不确定如果梯度与数据正交,为什么它很重要。

在方程式部分,它更加不清楚。鉴别器输入始终是图像,所以我假设x是一个图像。那么什么是ψγ?

(我知道这是一个基本问题,但对于我们这些简单的非研究人员、数学挑战者、无法理解原始文章的人来说,似乎没有关于它的博客)

1个回答

以下是我对这种正则化的理解。

R1只是梯度的范数,它表示权重的更新速度。梯度正则化惩罚某些神经网络层输出的大变化。

R1(ψ)=γ2EpD(x)[||Dψ(x)||2],

在哪里ψ是鉴别器权重,EpD(x)意味着我们仅从真实分布中采样数据(即仅真实图像)并且γ是一个超参数。

因为我们不知道是否G已经可以从真实分布中生成数据,我们将这种正则化应用于D仅在真实数据上,因为如果我们已经处于纳什均衡中,我们不希望判别器创建非零梯度而不会遭受损失。我想这也可以防止G如果它从真实分布中生成数据,则不会更新。

作者还调查了哪个值最适合γ通过分析相关梯度向量场的雅可比行列式的特征值,但在我看来,这个值高度依赖于数据集和架构。

“梯度正交于数据流形”仅表示零梯度。从 GAN 的角度来看,数据流形是嵌入在高维空间中的低维潜在特征流形,我们的目标是逼近它。由于梯度向量显示了我们需要更新函数的方向,如果它与这个流形正交,我们不需要更新函数。