在 GAN 的背景下,我看到许多设计新鉴别器网络的论文。
我很好奇将鉴别器设计为主流模型(如 Inception、MobileNet、EfficientNet 等)的修改版本的有用性。我的直觉是,上述图像分类模型比特定论文的自定义鉴别器更加精细和标准化。此外,我认为他们的预训练权重应该会有所帮助。
如果它们没有用,我很好奇为什么不。非常感谢有关此主题的任何链接。
在 GAN 的背景下,我看到许多设计新鉴别器网络的论文。
我很好奇将鉴别器设计为主流模型(如 Inception、MobileNet、EfficientNet 等)的修改版本的有用性。我的直觉是,上述图像分类模型比特定论文的自定义鉴别器更加精细和标准化。此外,我认为他们的预训练权重应该会有所帮助。
如果它们没有用,我很好奇为什么不。非常感谢有关此主题的任何链接。
使用标准的网络架构是完全合理的。无论如何,大多数鉴别器架构都是众所周知的架构的不同变体。
根据 GAN 损失,从预训练网络开始作为鉴别器可能是危险的。例如,经典的 GAN 损失最小化了 Jensen-Shannon 散度,因此从一开始就拥有强大的判别器意味着很少有支持重叠,并且判别器没有有用的梯度。这是 GAN 训练不稳定的主要原因。然而,最近的损失(例如,各种 WGAN 损失)没有这种共享支持问题。然而,像 WGAN 这样的损失假设了判别器的某些属性(即 Lipschitz-),预训练的网络不太可能开箱即用。所以从纯理论的角度来看,我可以理解为什么它不是很吸引人。
我怀疑,另一个原因是鉴别器的工作非常专业,需要它是动态的;即,它必须能够在生成器适应时快速“改变主意”。我不清楚人们努力将其放置在权重空间的高质量和健壮部分中的预训练网络是否对此有好处。此外,由于鉴别器的工作比 ImageNet 分类要容易一些,我怀疑经常用于迁移学习的大规模深度网络对于任务来说只是不必要的大(我的意思是后向甚至前向传递的成本是不必要的;GAN 已经采用有足够的时间训练)。
话虽如此,实际上通常使用预训练网络作为感知特征匹配损失的鉴别器。(您可能熟悉自动编码器中常用的更常见的“感知损失”)。这个想法是匹配特征统计,而不是优化标量概率(这个想法来自Salimans 等人,我相信)。请注意,用于此的预训练网络(通常是 VGG)大部分时间都没有经过训练甚至微调;他们通常独自一人。一些相关论文:[1]、[2]、[3]。我怀疑您始终可以在类似于这些设置或McGAN采用的方式中使用预训练网络, 会有帮助的。
尽管如此,我相当肯定使用预训练网络作为起点在许多情况下仍然可以正常工作,尽管我建议从 WGAN 变体开始以使其工作。它甚至可能做得很好,这取决于数据和其他训练细节。如果您尝试一下,请告诉我=)