我仍然不明白为什么我们强制变分自动编码器(VAE)的隐藏表示的分布遵循多元正态分布。为什么是这个特定的分布而不是另一个?
这可能与另一个问题有关:为什么神经网络中的权重分布遵循高斯分布?仅仅是应用中心极限定理告诉你很多独立的输入会产生很多独立的误差,而观察到的权重就是这些多个反向传播信号的结果……?
我仍然不明白为什么我们强制变分自动编码器(VAE)的隐藏表示的分布遵循多元正态分布。为什么是这个特定的分布而不是另一个?
这可能与另一个问题有关:为什么神经网络中的权重分布遵循高斯分布?仅仅是应用中心极限定理告诉你很多独立的输入会产生很多独立的误差,而观察到的权重就是这些多个反向传播信号的结果……?
正态分布并不是 VAE 中用于潜在变量的唯一分布。也有使用 von Mises-Fisher 分布的作品(Hypershperical VAEs [1]),还有使用高斯混合的 VAE,这对于无监督 [2] 和半监督 [3] 任务很有用。
正态分布有许多很好的特性,例如对变分损失中 KL 散度的分析评估,而且我们可以使用重新参数化技巧来进行有效的梯度计算(然而,原始的 VAE 论文 [4] 命名了许多其他适用的分布)。此外,VAE 的明显优势之一是它们允许通过在潜在空间中采样来生成新样本——如果它遵循高斯分布,这很容易。最后,正如@shimao 所说,潜变量遵循什么分布并不重要,因为使用非线性解码器可以模拟任意复杂的观察分布。这很方便。
至于第二个问题,我同意@shimao 的回答。
[4]:Kingma, DP 和 Welling, M., 2013。自动编码变分贝叶斯。arXiv 预印本 arXiv:1312.6114。
我们使用正态分布是因为它很容易重新参数化。此外,足够强大的解码器可以将正态分布映射到任何其他分布,因此从理论角度来看,确切的选择并不重要。
至于你的第二个问题,我会质疑你的前提——我很确定权重不是正态分布的——我记得看到 resnet 权重遵循更拉普拉斯分布。无论如何,这与 VAE 中的先验选择完全无关。