为什么选择 GAN 的高斯潜变量(噪声)?

数据挖掘 深度学习 高斯
2021-09-30 09:43:08

当我阅读 GAN 时,我不明白的是为什么人们经常选择 GAN (z) 的输入作为高斯样本?- 那么是否还有与此相关的潜在问题?

1个回答

为什么人们经常选择 GAN (z) 的输入作为高斯样本?

一般来说,有两个原因:(1)数学简单,(2)在实践中工作得很好。然而,正如我们所解释的,在额外的假设下,高斯的选择可能更合理。

比较均匀分布高斯分布不像均匀分布那么简单,但也不是那么遥远。它将“集中于均值”假设添加到均匀性中,这为我们提供了参数正则化在实际问题中的好处。

最不为人知的对于我们最不知道的连续量,例如噪声,使用高斯是最合理的ε 或潜在因素 z. “最不为人知的”可以形式化为“对于给定方差最大化熵的分布”。这个优化的答案是ñ(μ,σ2) 对于任意平均值 μ. 因此,从这个意义上说,如果我们假设一个量是我们最不知道的,那么最好的选择是高斯。当然,如果我们获得更多关于该数量的知识,我们可以做得比“最不为人知”的假设更好,如下面的例子所示。

中心极限定理另一个常用的理由是,由于许多观察是大量 [几乎] 独立过程的结果(平均值),因此CLT证明选择高斯是合理的。这不是一个很好的理由,因为还有许多现实世界的现象不服从正态性(例如幂律分布),并且由于我们不了解该变量,我们无法确定这些现实世界的类比中哪些是更可取。

这将是“为什么我们在概率回归卡尔曼滤波器中假设高斯噪声”的答案?也。

是否也存在与此相关的潜在问题?

是的。当我们假设高斯时,我们正在简化。如果我们的简化不合理,我们的模型将表现不佳。在这一点上,我们应该寻找一个替代假设。在实践中,当我们对最不为人知的数量做出新假设时(基于获得的知识或推测),我们可以提取该假设并引入的高斯假设,而不是改变高斯假设。这里有两个例子:

  1. 回归示例(噪声)假设我们对观察一无所知一个 (最不为人知的),因此我们假设 一个ñ(μ,σ2). 拟合模型后,我们可以观察到估计的方差σ^2高。经过一番调查,我们可以假设一个 是测量的线性函数 ,因此我们将这个假设提取为 一个=b1+C+ε1, 在哪里 ε1ñ(0,σ12)是新的“最不为人知的”。稍后,我们可能会发现我们的线性假设也很弱,因为在拟合模型后,观察到的ε^1=一个-b^1-C^ 也有很高的 σ^12. 然后,我们可以提取一个新的假设为一个=b1+b22+C+ε2, 在哪里 ε2ñ(0,σ22) 是新的“最不为人知的”,等等。

  2. GAN(潜在因子)中的示例在看到来自 GAN(知识)的不切实际的输出时,我们可能会添加更多层 之间 z 和输出(提取假设),希望新的网络(或功能)具有新的 z2ñ(0,σ22)会导致更现实的输出,等等。