VAE 的重建损失(例如,参见The Deep Learning Book中的方程 20.77 )通常写为
,
在哪里表示潜在变量,表示图像,并且是一个近似编码器。如果我们假设
,
然后我明白了如何最小化重建损失只是一个典型的最大似然问题。
但是当我看到在实践中实现 VAE 时,人们似乎经常将重建损失表示为每个之间的 L2 损失(训练图像)和(解码图像)。
谁能解释如何将上面第一个表达式中的重建损失转换为之间的 L2 损失和?
VAE 的重建损失(例如,参见The Deep Learning Book中的方程 20.77 )通常写为
,
在哪里表示潜在变量,表示图像,并且是一个近似编码器。如果我们假设
,
然后我明白了如何最小化重建损失只是一个典型的最大似然问题。
但是当我看到在实践中实现 VAE 时,人们似乎经常将重建损失表示为每个之间的 L2 损失(训练图像)和(解码图像)。
谁能解释如何将上面第一个表达式中的重建损失转换为之间的 L2 损失和?
通常在 VAE 实现中,解码器的输出实际上是平均值我会打电话给, 人们假设一个单一的协方差。所以在这种情况下,我们有:
这来自获取多元高斯分布的 pdf 的对数。现在您可以看到,由于前两项相对于,优化问题等价于最大化这是和之间的 L2 损失。最后,期望只是通过平均来近似。