在连续数据(即非二进制)上训练自动编码器时,我见过的几乎所有论文/实现都将特征向量之间的重构误差和解码的稀疏表示, IE,(虽然通常没有 sqrt,所以它在任何地方都是可区分的)。我最近阅读了 On the Surprising Behavior of Distance Metrics in High Dimensional Space,这似乎表明对于高维(作者使用 ~ 20),欧几里德距离度量不能提供合理的接近度度量。简而言之,作者声明(第 2 节,第一段):
...到给定查询点的最大和最小距离之间的差异不会像到高维空间中任何点的最近距离一样快。这使得邻近查询变得毫无意义且不稳定,因为最近和最远邻居之间的区别很差。
虽然他们主要在高维空间中测量最近邻居的背景下讨论这个结果,但我跳到了它对自动编码器的影响。
简短的搜索没有向我显示任何论文或研究,其中自编码器被训练除了重建错误,而不是通用的损失(即,)。有之前考虑过自动编码器的重建错误(我猜是的)?而且,鉴于上述论文的结果,为什么不使用不同的指标(除了“传统”)?
更新:在论文Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion中,作者证明了最小化损失相当于最大化重建输入和原始输入之间的互信息。这是一个合理的理论理由来使用指标优于其他指标。