为什么 KL Divergence 而不是 VAE 中的交叉熵

数据挖掘 损失函数 自动编码器 vae
2022-02-10 14:41:37

我了解 KL 散度如何为我们提供衡量一个概率分布与第二个参考概率分布的不同之处。但是为什么在 VAE(生成)中特别使用它们(而不是交叉熵)?

1个回答

回答对变分自动编码器的一些理论理解。

在编码器和解码器的一般架构中,编码器将输入编码为潜在空间,解码器从编码的潜在空间重构输入。

然而,在变分自动编码器 (VAE) 中,输入被编码为潜在分布而不是潜在空间中的一个点。这种潜在分布被认为是正态高斯分布(可以用均值和方差来表示)。此外,解码器对该分布中的一个点进行采样并重建输入。由于 VAE 编码器比潜在空间中的一个点编码为一个分布,并且使用 KL 散度来衡量分布之间的差异,因此它被用作损失函数中的正则化项。