今天我正在上一个特别无聊的讲座。在这堂课中,我短暂地让我的思绪徘徊。在此期间,我想知道:
给定一组唯一但可能相似的输入数据,编码器是否有可能为两个或多个不同的输入创建重叠编码?
假设我有一组任意输入。在这个输入集中,没有重复的数据实例,但数据可以非常相似。如果您要将这些数据输入经过充分训练的自动编码器,编码器是否可以为输入集的多个不同实例输出相同的编码?
今天我正在上一个特别无聊的讲座。在这堂课中,我短暂地让我的思绪徘徊。在此期间,我想知道:
给定一组唯一但可能相似的输入数据,编码器是否有可能为两个或多个不同的输入创建重叠编码?
假设我有一组任意输入。在这个输入集中,没有重复的数据实例,但数据可以非常相似。如果您要将这些数据输入经过充分训练的自动编码器,编码器是否可以为输入集的多个不同实例输出相同的编码?
在某些设置中,他们不仅可以,而且需要。具有弱解码器的理想化去噪自动编码器会将任何输入+噪声以及仅输入映射到相同的最终潜在代码 - 它的编码器将只是无噪声数据的无损压缩,加上噪声过滤器。
对于负面情况,在病理情况下,潜在编码可能会崩溃为单个向量,从而产生具有局部最小重建成本的单个欠拟合重建。
那只是经典的AE。如果您认为代码是样本而不是分布参数, VAE应该产生重叠代码,它是紧凑且(近似)连续潜在空间中的 N 维气泡。
进入瓶颈的信息多于流出的信息,因此一些输入必须产生相同的输出。
简单地说,如果您的瓶颈/表示层使用 ReLU 激活,并且该层的所有输入都小于 0,则编码将全为 0。所以要产生这样的编码,你只需要有两个输入,它们的属性是它们被映射到所有瓶颈层 ReLU 的“左侧”。
或者您有一个权重均为 0 的自动编码器(可能是因为您将正则化设置得太高并且模型崩溃了),该模型将所有输入分配给相同的代码。