用于图像重建的自动编码器的最佳架构是什么?

数据挖掘 深度学习 神经网络 自动编码器 卷积神经网络
2021-10-10 19:00:08

我正在尝试将 Convul​​tional Auto-Encoder 用于其潜在空间(嵌入层),具体来说,我想在潜在空间中使用嵌入进行 K-最近邻搜索(类似于 word2vec 的想法)。

我的输入是 3x224x224(ImageNet),我找不到任何详细说明特定架构的文章(在过滤器数量、卷积层数等方面)。我尝试了一些任意架构,例如:

编码器:

  • 转换(通道=3,过滤器=16,内核=3)
  • 转换(通道=16,过滤器=32,内核=3)
  • 转换(通道=32,过滤器=64,内核=3)

解码器:

  • 反卷积(通道=64,过滤器=32,内核=3)
  • 反卷积(通道=32,过滤器=16,内核=3)
  • 反卷积(通道=16,过滤器=3,内核=3)

但我想从一个在类似任务中证明自己的设置开始我的超参数搜索。您能否向我推荐一个资源或建议一个为此目的为您工作的架构?

1个回答

我不知道架构绝对是最好的,但是您可以遵循一些最佳实践。看看这些论文:

总而言之,下采样之间的残差块、作为损失函数的 SSIM 以及瓶颈中较大的特征图尺寸似乎显着提高了重建质量。这如何转化为潜在空间尚不完全清楚。