为什么我们不希望自动编码器完美地表示他们的训练数据?

数据挖掘 机器学习 深度学习 自动编码器 正则化
2022-03-11 02:03:32

来自 Ian Goodfellow 的深度学习书籍:

如果自动编码器成功地简单地学习设置g(f(x)) = x无处不在,那么它就不是特别有用。相反,自动编码器被设计成无法完美地学习复制

我不明白这部分。g是解码器,f是编码器。为什么编码器和解码器不能完美地表示输入数据x

解决这个问题的另一种方法是——为什么自动编码器需要正则化?我理解在预测机器学习中,我们对模型进行正则化,以便它可以泛化到训练数据之外。

然而,如果有足够大的训练集(在深度学习中很常见),则不需要正则化。对我来说,到处学习似乎是可取的g(f(x)) = x,我不明白作者为什么不这样说。

1个回答

自动编码器能够完美表示训练数据的唯一方法是拥有一个与输入和输出层大小相同的隐藏层。因此,不会对训练数据进行压缩。数据将是它自己的模型(即 f 和 g 是恒等函数)。

自编码器的目标是学习数据的压缩、有损模型。