空间变压器网络:theta 是如何可微分的?

数据挖掘 机器学习 神经网络 深度学习 美国有线电视新闻网 空间转换器
2022-02-22 01:17:39

在论文Spatial Transformer Networks中,给定当前输入特征图,定位网络的输出 theta 是可微的。这个 theta 是如何区分的?

1个回答

在空间变换网络中,定位网络的概念基本上是学习应用变换来找到输入的规范形式。想象一下网络的输出θ作为传递给另一层的激活。关键是操作的采样序列是可微的。θ只是一个输出,它指定应该如何执行采样。通常使用的采样操作是双线性插值,尽管由于floorceiling函数在所有点上都不可微,但它可以 反向传播误差并且在其大部分输入中是可微的。考虑θ就像传递给双线性采样器以更改下一个网络的输入的激活一样。双线性采样被认为是可微的。

为了更好地理解它,请考虑下图,它比原始论文中的更容易说明空间转换器内部的过程。

在此处输入图像描述

很明显,定位网络的输出是θ将被传递到采样网格。采样网格将乘以θ在原始图像中找到合适的区域。考虑到你不乘θ到原始图像。原因是,如果乘以原始图像,单个像素将有多个选择,而如果将定位网络的输出乘以采样网格,则每个条目只有一个选择。接下来,采样的网格和原始图像将用于插值以找到变换后的图像。很明显,θ就像其他激活一样。