人工智能 - 您如何计算变分自动编码器在三维空间上的 KL 散度？ - 吾爱随笔录

您如何计算变分自动编码器在三维空间上的 KL 散度？

人工智能卷积神经网络计算机视觉数学变分自动编码器 kl-散度

2021-10-19 21:39:36

我正在尝试实现一个变分自动编码器（如第 3.1 节所示：https ://arxiv.org/pdf/2004.06271.pdf ）。

它与传统的 VAE 不同，因为它将输入图像编码为3 维潜在特征图。换句话说，潜在特征图具有宽度、高度和通道维度，而不仅仅是像传统 VAE 那样的通道维度。

在计算作为损失函数的一部分的 Kullback-Liebler 散度时，我需要作为编码器输出的均值和协方差。但是，如果潜在特征图是三维的，这意味着编码器的输出是三维的，因此每个潜在特征都是一个二维矩阵。

如何从 2D 矩阵导出均值和协方差来计算 KL 散度？

1个回答

您的三维潜在表示由平均像素和协方差像素的两个图像组成，如图 3 所示。它表示具有潜在表示中每个像素的均值和协方差的高斯分布。每个像素值都是一个随机变量。

现在，仔细看看 KL-loss Eq。3及其在论文中的相应描述：

L_{K L} = \frac{1}{2 \times (\frac{W}{16} \times \frac{H}{16})} \sum_{m = 1}^{M} [μ_{m}^{2} + σ_{m}^{2} - \log (σ_{m}^{2}) - 1]

$\mathcal{L}_{KL} = \frac{1}{2 \times (\frac{W}{16} \times \frac{H}{16}) } \sum^M_{m = 1}[\mu^2_m + \sigma^2_m - \log(\sigma^2_m) - 1]$

最后， $M$ 是潜在特征的维度 $\theta \in \mathbb{R}^M$ 平均 $\mu = [\mu_1,...,\mu_M]$ 和协方差矩阵 $\Sigma = \text{diag}(\sigma_1^2,...,\sigma_M^2)$ ，[...]。

协方差矩阵是对角的，因此所有像素值都是相互独立的。这就是为什么我们对方程给出的 KL 散度有这种很好的分析形式的原因。3.因此，您可以将 2D 随机矩阵简单地视为大小的随机向量 $M = \frac{W}{16} \times \frac{H}{16}$ ( $\times 3$ 如果您想包括颜色尺寸）。第三维（RGB通道）也可以被认为是独立的，因此也可以将其展平为向量并附加。实际上，这就是上面句子后半部分所指出的论文中所做的：

通过从标准多元高斯采样重新参数化 $\epsilon \sim \mathcal{N}(0,I_M)$ ， IE $\theta = \mu + \Sigma^{\frac{1}{2}}\epsilon$ .

其它你可能感兴趣的问题

上一篇如何在一个句子中消除同一个词的两种含义？下一篇遗传算法是否适合像 Knuth 问题这样的问题？