数据挖掘 - 为什么选择 GAN 的高斯潜变量（噪声）？ - 吾爱随笔录

为什么选择 GAN 的高斯潜变量（噪声）？

数据挖掘深度学习甘高斯

2021-09-30 09:43:08

当我阅读 GAN 时，我不明白的是为什么人们经常选择 GAN (z) 的输入作为高斯样本？- 那么是否还有与此相关的潜在问题？

1个回答

为什么人们经常选择 GAN (z) 的输入作为高斯样本？

一般来说，有两个原因：（1）数学简单，（2）在实践中工作得很好。然而，正如我们所解释的，在额外的假设下，高斯的选择可能更合理。

比较均匀分布。高斯分布不像均匀分布那么简单，但也不是那么遥远。它将“集中于均值”假设添加到均匀性中，这为我们提供了参数正则化在实际问题中的好处。

最不为人知的。对于我们最不知道的连续量，例如噪声，使用高斯是最合理的 $\epsilon$ 或潜在因素 $z$ . “最不为人知的”可以形式化为“对于给定方差最大化熵的分布”。这个优化的答案是 $N(\mu, \sigma^2)$ 对于任意平均值 $\mu$ . 因此，从这个意义上说，如果我们假设一个量是我们最不知道的，那么最好的选择是高斯。当然，如果我们获得更多关于该数量的知识，我们可以做得比“最不为人知”的假设更好，如下面的例子所示。

中心极限定理。另一个常用的理由是，由于许多观察是大量 [几乎] 独立过程的结果（平均值），因此CLT证明选择高斯是合理的。这不是一个很好的理由，因为还有许多现实世界的现象不服从正态性（例如幂律分布），并且由于我们最不了解该变量，我们无法确定这些现实世界的类比中哪些是更可取。

这将是“为什么我们在概率回归或卡尔曼滤波器中假设高斯噪声”的答案？也。

是否也存在与此相关的潜在问题？

是的。当我们假设高斯时，我们正在简化。如果我们的简化不合理，我们的模型将表现不佳。在这一点上，我们应该寻找一个替代假设。在实践中，当我们对最不为人知的数量做出新假设时（基于获得的知识或推测），我们可以提取该假设并引入新的高斯假设，而不是改变高斯假设。这里有两个例子：

回归示例（噪声）。假设我们对观察一无所知 $A$ （最不为人知的），因此我们假设 $A \sim N(\mu, \sigma^2)$ . 拟合模型后，我们可以观察到估计的方差 $\hat{\sigma}^2$ 高。经过一番调查，我们可以假设 $A$ 是测量的线性函数 $B$ ，因此我们将这个假设提取为 $A = \color{blue}{b_1B +c} + \epsilon_1$ ，在哪里 $\epsilon_1 \sim N(0, \sigma_1^2)$ 是新的“最不为人知的”。稍后，我们可能会发现我们的线性假设也很弱，因为在拟合模型后，观察到的 $\hat{\epsilon}_1 = A - \hat{b}_1B -\hat{c}$ 也有很高的 $\hat{\sigma}_1^2$ . 然后，我们可以提取一个新的假设为 $A = b_1B + \color{blue}{b_2B^2} + c + \epsilon_2$ ，在哪里 $\epsilon_2 \sim N(0, \sigma_2^2)$ 是新的“最不为人知的”，等等。
GAN（潜在因子）中的示例。在看到来自 GAN（知识）的不切实际的输出时，我们可能会添加 $\color{blue}{\text{more layers}}$ 之间 $z$ 和输出（提取假设），希望新的网络（或功能）具有新的 $z_2 \sim N(0, \sigma_2^2)$ 会导致更现实的输出，等等。

其它你可能感兴趣的问题

上一篇为什么 RNN 的隐藏层通常比 CNN 少？下一篇处理可变长度的特征向量