在标题中很难简洁地提出这个问题,所以让我解释一下。
从我看到的所有 VAE 示例中,似乎有两种方法用于实现它们。
在这些方法中, 解码器的输出是一个分布。具体来说,伯努利分布。损失与输入数据相对于该分布的可能性有关。在生成新变量时,不仅从潜在空间分布中抽取样本,而且从输出分布中抽取样本。我有一个关于使用这种方法对输出分布进行参数化的问题,但我将把它留到最后。
在这些方法中, 解码器的输出是实际预测的数据点,然后将其与输入进行比较以计算损失,作为均方误差。唯一被采样的是潜在空间。
这两种方法根本不同。我注意到在第一种方法中,作者将这个想法与统计/概率动机联系起来,而且它似乎有一个坚实的理论基础。出于这个原因,我倾向于采用第一种方法。
所以我的问题是:
- 这些方法中的任何一种都被认为是优越的吗?
- 第二个问题更多的是意义检查:伯努利分布对灰度像素有意义。但是对于像股票收益这样的东西,我们需要一些其他的分布,比如 t 分布。在这种情况下,编码器的输出将是 3 个向量,1 个表示位置,1 个表示比例,1 个表示自由度,对吧?