与 WGAN 相比,GAN 中模式崩溃的原因是什么?

人工智能 神经网络 生成对抗网络 kl-散度 瓦瑟斯坦度量 瓦瑟斯坦甘
2021-11-13 19:19:41

在这篇文章中,我正在阅读:

DKL当两个分布不相交时给我们无穷大。的价值DJS有突然的跳跃,在θ=0. 只有 Wasserstein 度量提供了平滑的度量,这对于使用梯度下降的稳定学习过程非常有帮助。

为什么这对于稳定的学习过程很重要?我也觉得这也是 GAN 中模式崩溃的原因,但我不确定。

Wasserstein GAN 论文显然也谈到了它,但我认为我漏掉了一点。是不是说 JS 不提供可用的渐变?这到底是什么意思呢?

1个回答

我没有明确的答案,但只有一个怀疑/想法:

查看WGAN 论文中的图 1 ,我们清楚地看到右侧的 JS 散度在0,因此在0. 然而,左边的 EM 图也是连续的0. 你现在可以争辩说我们在那里有一个扭结,所以它也不应该在那里可微,但他们可能有不同的可微性概念,老实说我现在不确定。 在此处输入图像描述