在变分自动编码器 (VAE) 中,给定一些数据和潜变量预先分配,编码器旨在学习一个分布近似于真实的后验解码器旨在学习分布近似于真实的基础分布.
然后联合训练这些模型以最大化目标,这是训练集的对数似然的下界:
根据 Kingma 和 Welling 的原始论文 ( https://arxiv.org/pdf/1312.6114.pdf ) 中的 C.2 节,当我们建模时作为高斯族,解码器应该输出均值和(对角线)协方差为高斯分布。
我的问题是:这个优化问题不是不适定的(就像 GMM 中的最大似然训练一样)?如果解码器可以为训练集中的单个图像生成完美的重建(即) 那么就可以设置相应的方差任意接近零的值,因此无论其余训练示例发生什么情况,可能性都会变为无穷大。
我知道大多数高斯 VAE 实现都有一个简化的解码器,它只输出平均值,替换术语 通过原始图像和重建之间的平方误差(相当于将协方差设置为始终为单位矩阵)。这是因为原始公式的不适定性吗?