我做了一些实验来了解 VAE 中潜在空间维度的影响,似乎空间越高,生成逼真的图像就越困难。我可能对原因有直觉,我想听听你的意见或任何其他关于它的理论见解。
首先,我注意到:
- 在 MNIST 上训练具有大潜在空间(8x8x1024)的深度卷积 VAE 后,重建效果非常好。此外,当我将任何样本提供给我的编码器时,输出均值接近 0,输出 std接近 1。重建损失和潜在损失似乎都很低.
- 但是,如果我将来自的随机样本提供给我的解码器,则输出是黑色背景上的一些随机白色笔划(如 MNIST 样本,但看起来不像数字)。
- 如果我给我的编码器一个图像,它将输出一个平均值(接近 0),如果我给我的解码器随机样本来自,输出将是代表与输入相同数字的图像(既真实又与输入不同)
我的结论是:
- VAE 生成了许多真实图像的高斯分布,其中心接近 0 但不完全为 0。因此,真实图像的分布是高斯的混合
- 的实际支持的实际支持不重叠(除了在一组测量零上)。通过实际支持,我指的是实际生成大多数点的空间。对于高维高斯,它对应于一个肥皂泡。
所以这里是一个高维潜在空间会发生什么的可视化:
红色气泡将是的实际支持,而黑色气泡的并集将是 的实际支持。只有黑色气泡包含逼真的图像,而红色气泡几乎不包含逼真的图像。维度越高,气泡越细,重叠空间越小。
这种直觉正确吗?高维潜在空间不能正常工作还有其他原因吗?