我正在尝试将 Convultional Auto-Encoder 用于其潜在空间(嵌入层),具体来说,我想在潜在空间中使用嵌入进行 K-最近邻搜索(类似于 word2vec 的想法)。
我的输入是 3x224x224(ImageNet),我找不到任何详细说明特定架构的文章(在过滤器数量、卷积层数等方面)。我尝试了一些任意架构,例如:
编码器:
- 转换(通道=3,过滤器=16,内核=3)
- 转换(通道=16,过滤器=32,内核=3)
- 转换(通道=32,过滤器=64,内核=3)
解码器:
- 反卷积(通道=64,过滤器=32,内核=3)
- 反卷积(通道=32,过滤器=16,内核=3)
- 反卷积(通道=16,过滤器=3,内核=3)
但我想从一个在类似任务中证明自己的设置开始我的超参数搜索。您能否向我推荐一个资源或建议一个为此目的为您工作的架构?