机器算法验证 - VAE：为什么我们在解码之后和重建损失之前不再次采样？ - 吾爱随笔录

VAE：为什么我们在解码之后和重建损失之前不再次采样？

机器算法验证机器学习自动编码器变分贝叶斯

2022-04-08 14:05:03

在许多 VAE 示意图和原始论文中，在解码之后和重建损失之前存在一个采样步骤，如下图所示。图片来自斯坦福 CS321n。

但是，在许多代码实现中，不存在此步骤。例如在此处可用的 Keras 实现中：https ://keras.io/examples/variational_autoencoder/

在潜在空间z中，他们使用 Lambda 层进行采样，但在解码器的末尾只有一个具有 sigmoid 激活的 Dense 层。

sigmoid 是否在做我在数学上不理解的事情？如果没有这个采样步骤，VAE 数学仍然有效吗？

它不仅在代码实现中，在其他一些示意图和文本材料中似乎都被忽略了（见下图）。

2个回答

最重要的一点源于波浪号意味着采样操作的混淆。但是并不意味着某些东西被采样了，这是一种算法/计算操作。它表示某物按照某种分布进行分布。 $\sim$ $\sim$

现在，当我们训练 VAE 时，我们想要获得 ELBO 的梯度。VAE 中使用的 ELBO 形式通常是

L = E_{z \sim q} [\log p (x | z)] - K L [q (z | x) | | p (z)] .

$\mathcal{L} = \mathbb{E}_{z \sim q}\left[ \log p(x|z) \right] - \mathop{KL}\left[ q(z|x) || p(z)\right].$ 的蒙特卡罗估计有效地计算。

q

$q$

，则第一项，即重建项或似然项通常可以以封闭形式计算。尤其是在两种最普遍的情况下——伯努利和高斯对数似然。 $z$

因此，如果其中是一些易处理的分布，则无需从中采样，因为我们感兴趣的是，它本身通常是易处理的。 $x|z \sim D$ $D$ $\log p(x|z)$

在图像生成的情况下，网络通常会输出一个重建图像并且您将计算重建项为如果是解码器。这与进行线性回归时发生的情况相同。在正态线性回归中，您使用估计似然的平均值，然后在真实点 $\hat{\mathbf{x}}$

L_{reconstr} (θ) = {‖ x - f_{θ} (x_{i}, z) ‖}^{2} = {‖ x - \hat{x} ‖}^{2}

$\begin{equation} \mathcal{L}_{\text{reconstr}}(\theta) = {\lVert \mathbf{x} - f_\theta(\mathbf{x}_i,\mathbf{z}) \rVert}^2 = {\lVert \mathbf{x} - \hat{\mathbf{x}} \rVert}^2 \end{equation}$

f_{θ} (x_{i}, z)

$f_\theta(\mathbf{x}_i,\mathbf{z})$

w^{⊤} x_{i} = {\hat{y}}_{i}

$\mathbf w^\top\mathbf x_i=\hat y_i$

y_{i}

$y_i$ . 这就是你试图最大化的。如果您计算出数学，并且假设是固定的，那么最大化似然性等同于最小化平方误差。在这里你正在做同样的事情。解码器正在生成法线的平均值（其中是图像的大小），您实际上是在做同时假设

σ

$\sigma$

max N (y_{i} | {\hat{y}}_{i}, σ) \Leftrightarrow min {‖ y_{i} - {\hat{y}}_{i} ‖}^{2}

$\begin{equation} \max\;\mathcal{N}\left(y_i|\hat{y}_i,\sigma\right) \Leftrightarrow \min\;{\lVert y_i - \hat{y}_i \rVert}^2 \end{equation}$

N \times M

$N\times M$

N \times M

$N\times M$

max N (x_{i} | f_{θ} (x_{i}, z), σ) \Leftrightarrow min {‖ x_{i} - {\hat{x}}_{i} ‖}^{2}

$\begin{equation} \max\;\mathcal{N}\left(\mathbf x_i|f_\theta(\mathbf{x}_i,\mathbf{z}),\mathbf{\sigma}\right) \Leftrightarrow \min\;{\lVert \mathbf x_i - \hat{\mathbf x}_i \rVert}^2 \end{equation}$

σ

$\mathbf{\sigma}$ 是固定的。从技术上讲，您还可以让网络生成，然后优化更精细的 L2 损失，其中还包括某处。这样，您的网络将生成正态分布的所有参数，而不仅仅是平均值，并且对于每个潜在向量您实际上可以采样几个合成图像。然而，我们通常很高兴为每个生成一个图像。因此，如果我们只取最可能的那个是可以的，即所得预测后验的平均值。毕竟，这也是我们在线性回归中对点估计所做的。

σ

$\mathbf{\sigma}$

σ

$\mathbf{\sigma}$

z

$\mathbf z$

\hat{x}

$\hat{\mathbf x}$

z

$\mathbf z$

其它你可能感兴趣的问题

上一篇因果关系：结构因果模型和 DAG 下一篇计算机视觉中的借口任务