在 GAN 等生成模型的背景下,对数似然意味着什么?
机器算法验证
机器学习
深度学习
可能性
生成模型
甘
2022-03-02 17:07:05
2个回答
你完全正确。大多数 GAN 模型在大多数数据集或真实分布上的对数似然是,并且任何实际图像的训练模型下的概率密度几乎总是为零。
这很容易看出。假设 GAN 有一个 200 维的潜在变量,并且正在生成 200x200 灰度图像。那么所有图像的空间都是 40,000 维,而 GAN 只能在这 40,000 维空间的 200 维子流形上生成图像。真实图像几乎总是位于这个子流形上,因此在 GAN 下的概率密度为零。每当输出空间的维度高于潜在空间时,这个论点就成立,这通常是这种情况(例如,Nvidia 最近的渐进式 GAN 使用 512 维的潜在空间来生成 1024x1024x3 图像)。
这是否是一个问题取决于您想要生成模型的目的;在许多情况下,GAN 肯定会生成具有视觉吸引力的样本。
最大似然理论通常不适用于生成模型,如此处所示。相反,VAEs 和 GANs 等方法的可能性是通过 VAEs 上的 KL Divergense 和 GANs 上的 JS Divergense 来近似的。
此类函数用于衡量两个分布概率的差异程度,也称为相对熵。
粗略地说,虽然形状相同但均值不同的两个分布具有相同的熵,但您可以认为,虽然这些函数会适应网络学习的形状,但判别器(在 GAN 的情况下)在最佳时会决定均值在哪里。
例如,如果 GAN 试图学习均值 -1 和标准差 2 的高斯分布,则随着时间的推移达到其最佳状态的鉴别器负责定位该均值,而散度函数则学习其形状。
从技术上讲,这是可能的,因为根据文章中的证明,最佳鉴别器应该达到 -log(4) 的成本。所以Generator间接逼近它的实际分布以达到Discriminator的成本这个值,保证收敛到均值和形状。