数据挖掘 - 空间变压器网络：theta 是如何可微分的？ - 吾爱随笔录

空间变压器网络：theta 是如何可微分的？

数据挖掘机器学习神经网络深度学习美国有线电视新闻网空间转换器

2022-02-22 01:17:39

在论文Spatial Transformer Networks中，给定当前输入特征图，定位网络的输出 theta 是可微的。这个 theta 是如何区分的？

1个回答

在空间变换网络中，定位网络的概念基本上是学习应用变换来找到输入的规范形式。想象一下网络的输出 $\theta$ 作为传递给另一层的激活。关键是操作的采样序列是可微的。 $\theta$ 只是一个输出，它指定应该如何执行采样。通常使用的采样操作是双线性插值，尽管由于floor和ceiling函数在所有点上都不可微，但它可以反向传播误差并且在其大部分输入中是可微的。考虑 $\theta$ 就像传递给双线性采样器以更改下一个网络的输入的激活一样。双线性采样被认为是可微的。

为了更好地理解它，请考虑下图，它比原始论文中的更容易说明空间转换器内部的过程。

很明显，定位网络的输出是 $\theta$ 将被传递到采样网格。采样网格将乘以 $\theta$ 在原始图像中找到合适的区域。考虑到你不乘 $\theta$ 到原始图像。原因是，如果乘以原始图像，单个像素将有多个选择，而如果将定位网络的输出乘以采样网格，则每个条目只有一个选择。接下来，采样的网格和原始图像将用于插值以找到变换后的图像。很明显， $\theta$ 就像其他激活一样。

其它你可能感兴趣的问题

上一篇如何在 sklearn 特征提取中使用 build_analyzer 下一篇英文文档的单词/句子对齐