阅读Zeiler&Fergus 的论文(我的总结),我想知道他们是如何训练 deconv 网络的。他们的数据是什么?
我认为对于他们想要分析的一个 CNN,他们只训练一个反卷积网络(与每层训练一个反卷积网络相反)。deconv 网络的特征(输入)是他们想要分析的层的激活。他们训练他们的输出是实际上是他们想要分析的层的输入的激活。因此,尽管他们总共有一个反卷积网络,但他们还是逐层训练它。所以对于每次训练运行,只调整一个反卷积层的权重。
但是,我想知道为什么这些图像看起来那么不切实际:
它是灰色的,因为 MSE 是训练目标吗?那么为什么第一层过滤器输出也不是灰色的呢?