这篇文章参考了微软在他们的深度卷积逆图形网络上的一篇论文的图 1:
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/11/kwkt_nips2015.pdf
阅读了这篇论文后,我大致了解了网络的运作方式。然而,一个细节一直困扰着我:网络解码器(或“渲染器”)如何在图形代码定义的正确位置生成小尺度特征?例如,在面部训练数据集时,可能会训练图形代码中的单个参数来控制小雀斑的 (x,y) 位置。由于这个特征很小,它将由相关内核很小的最后一个卷积层“渲染”。我不明白的是,雀斑位置的信息(在图形代码中)是如何传播到最后一层的,此时中间有许多更大规模的 unpooling + 卷积层。
谢谢您的帮助!
