我见过的大多数自动编码器架构都有类似的架构,主要是解码器只是编码器的反面。如果自编码器的目标是低维特征学习,为什么解码器不简单?一个例子是线性变换,其中是特征矩阵(即瓶颈)次观察是将映射到原始输入特征大小的学习权重矩阵。在具有多个隐藏层的深度自动编码器的情况下,与编码器相比,上述示例中的解码器容量较低。
我的直觉如下:
如果解码器很简单,那么自动编码器被迫在瓶颈中学习更高质量的特征来进行补偿。相反,如果解码器具有高表示能力,它可以有效地将学习不佳的瓶颈映射到输出重建。在这种情况下,重建误差可能会更低,但这并不一定意味着学习的特征实际上更好。
在我自己的应用程序(图上的特征学习)中,我发现一个简单的解码器比只镜像编码器的解码器产生更好的学习特征。在本文中,作者设计了一个带有非常简单的解码器的图自动编码器其中是重建的图邻接矩阵,是学习的特征矩阵,是一些非线性变换,如 ReLU。
我一直在寻找这个问题的答案一段时间,但我没有找到任何解释或理论结果来解释为什么更高容量的解码器比低容量的解码器更可取(反之亦然)。如果有人可以提供解释或指出正确的方向,我将不胜感激。
