当我阅读 GAN 时,我不明白的是为什么人们经常选择 GAN (z) 的输入作为高斯样本?- 那么是否还有与此相关的潜在问题?
为什么选择 GAN 的高斯潜变量(噪声)?
为什么人们经常选择 GAN (z) 的输入作为高斯样本?
一般来说,有两个原因:(1)数学简单,(2)在实践中工作得很好。然而,正如我们所解释的,在额外的假设下,高斯的选择可能更合理。
比较均匀分布。高斯分布不像均匀分布那么简单,但也不是那么遥远。它将“集中于均值”假设添加到均匀性中,这为我们提供了参数正则化在实际问题中的好处。
最不为人知的。对于我们最不知道的连续量,例如噪声,使用高斯是最合理的 或潜在因素 . “最不为人知的”可以形式化为“对于给定方差最大化熵的分布”。这个优化的答案是 对于任意平均值 . 因此,从这个意义上说,如果我们假设一个量是我们最不知道的,那么最好的选择是高斯。当然,如果我们获得更多关于该数量的知识,我们可以做得比“最不为人知”的假设更好,如下面的例子所示。
中心极限定理。另一个常用的理由是,由于许多观察是大量 [几乎] 独立过程的结果(平均值),因此CLT证明选择高斯是合理的。这不是一个很好的理由,因为还有许多现实世界的现象不服从正态性(例如幂律分布),并且由于我们最不了解该变量,我们无法确定这些现实世界的类比中哪些是更可取。
这将是“为什么我们在概率回归或卡尔曼滤波器中假设高斯噪声”的答案?也。
是否也存在与此相关的潜在问题?
是的。当我们假设高斯时,我们正在简化。如果我们的简化不合理,我们的模型将表现不佳。在这一点上,我们应该寻找一个替代假设。在实践中,当我们对最不为人知的数量做出新假设时(基于获得的知识或推测),我们可以提取该假设并引入新的高斯假设,而不是改变高斯假设。这里有两个例子:
回归示例(噪声)。假设我们对观察一无所知 (最不为人知的),因此我们假设 . 拟合模型后,我们可以观察到估计的方差高。经过一番调查,我们可以假设 是测量的线性函数 ,因此我们将这个假设提取为 , 在哪里 是新的“最不为人知的”。稍后,我们可能会发现我们的线性假设也很弱,因为在拟合模型后,观察到的 也有很高的 . 然后,我们可以提取一个新的假设为, 在哪里 是新的“最不为人知的”,等等。
GAN(潜在因子)中的示例。在看到来自 GAN(知识)的不切实际的输出时,我们可能会添加 之间 和输出(提取假设),希望新的网络(或功能)具有新的 会导致更现实的输出,等等。