GAN 是一种无监督学习算法,它将鉴别器和生成器相互竞争,以便它们迭代竞争以增强整体模型对给定数据集建模/复制的能力。到目前为止,我只看到 GAN 在代码中应用于具有数十万个观察值的非常大的数据集。
不限于图像构建,是否有任何关于 GAN 在仅提供几千或数百个样本观察值时如何执行(用于密度估计采样任务或其他)的研究?
如果不是,并且考虑到我们已经知道它对大样本量的能力,我们在理论上对 GAN 对小数据集的训练和性能有什么期望?
GAN 是一种无监督学习算法,它将鉴别器和生成器相互竞争,以便它们迭代竞争以增强整体模型对给定数据集建模/复制的能力。到目前为止,我只看到 GAN 在代码中应用于具有数十万个观察值的非常大的数据集。
不限于图像构建,是否有任何关于 GAN 在仅提供几千或数百个样本观察值时如何执行(用于密度估计采样任务或其他)的研究?
如果不是,并且考虑到我们已经知道它对大样本量的能力,我们在理论上对 GAN 对小数据集的训练和性能有什么期望?
的确,GAN 在对大量数据进行训练时通常会产生良好的结果。然而,CycleGAN已经存在了一段时间,它们仅在几幅图像上训练时产生逼真的图像(作者使用的开源数据集平均有大约 1000 张图像)。也就是说,这篇(最近的)论文谈到了可微增强作为一种训练数据高效 GAN 的新技术。他们的结果包括对 CIFAR10 和 CIFAR100 数据集中的一小部分数据进行的实验。这张纸来自麻省理工学院的 GAN 认为进化 GAN 训练是减少用于训练的数据量的一种手段。这也将有助于专门研究使用 GAN 进行医学图像合成或翻译问题的论文,因为医学领域的数据已经很稀缺,因此人们找到了一些有趣的技术来解决它。
至于 GAN 的非图像生成应用,WaveGAN是用于合成音频的模型, spaceGAN是用于地理空间建模的模型等。Reddit 的讨论给出了更多 GAN 在非图像应用中的示例。