瓶颈z维度如何影响VAE中的重建损失

机器算法验证 机器学习 神经网络 数理统计 参考 自动编码器
2022-03-13 12:25:04

我遇到过几篇 VAE 论文,它们都报告了类似的度量位/暗度

许多(如果不是全部)没有提到 z 空间的瓶颈大小。我知道这会直接影响重建损失,例如一个太小的瓶颈,你不能得到任何有意义的重建(后塌陷)。

然而目前尚不清楚,这个瓶颈是否有上限。

例如: 512 和 2048 的 az 维度为我产生了相同的基准。这个数字的上限是架构选择而不是瓶颈大小吗?

我还想象一个与您的输入具有相同维度的瓶颈应该会导致完美的重建,但不会找到瓶颈的定义。

找不到任何相关文件。任何想法表示赞赏。

2个回答

在我看来,您在这里缺少的链接是对 VAE 的概率/信息理论解释。当您的网络容量足够大时,您将达到一个点,即具有较大潜在空间的解决方案不会比较小的解决方案保留更多信息。这在 VAE 中是可能的,因为它们在内部产生了嘈杂的表示。

澄清一下:首先,位/暗度指标是输入的每个维度。您可以在此处收集的链接中阅读有关此指标的更多信息: 精确的每维位数 (bits/dim) 是多少(在像素 CNN 论文中)?

也许无限大网络和无限数据的限制在这里具有指导意义:VAE 优化模型证据的变分界限。这是由数据的真实熵限制的。在这一点或附近,您的比特/暗淡将收敛,并且在任何地方增加更多复杂性将不再提高性能。由于数据有限,这一点会更早出现。

正如您似乎从瓶颈和自动编码器的角度考虑的那样:对于 VAE,瓶颈实际上并不是潜在空间中的维数,而是噪声。没有噪音,即使是一个连续的数字也有无限的容量。由于允许 VAE 调整其表示上的噪声,它们很可能以更少的维度以更少的噪声表示相同数量的信息。因此,与经典自动编码器相比,潜在维度的数量对编码容量的信息量要少得多。事实上,VAE 经常有潜在的空间单元,它们收敛于总是等于先验,即不携带任何关于图像的信息。

在实践中,更多的潜在单元变得更难训练且成本更高,这样您就可以避免使用太多“死亡”的潜在单元,但从理论的角度来看,许多维度并不等于 VAE 的开放瓶颈。

因此,总的来说,我会说 VAE 的 z 维数是改变编码器/解码器的表现力/复杂性的众多旋钮之一,并且不会直接影响重建损失。

正如在变分自动编码器 - 潜在空间维度中提到的,潜在变量维度有一个启发式上限:训练数据的大小。

如果您的编码器有足够的动力(我们假设它无论如何对于 VAE),如果您的潜在变量是N维度,你有N训练样本,然后你的编码器可以简单地在潜在的一维中编码每个样本,严重过度拟合你的模型。

然而,在实践中,这个界限可能更紧密,因为编码器是非线性的,它可以将训练数据拟合到较低维度的潜在中,但仍然过拟合。

对此的一种可能测试是解码随机潜在值并查看它们的外观(假设您正在对图像进行建模)。