什么是深度学习中使用的可微模块

数据挖掘 机器学习 深度学习 美国有线电视新闻网 转型
2022-03-02 23:24:08

我正在阅读这篇论文。

卷积神经网络定义了一类异常强大的模型,但仍受限于缺乏以计算和参数有效的方式对输入数据保持空间不变的能力。在这项工作中,我们引入了一个新的可学习模块 Spatial Transformer,它明确允许对网络内的数据进行空间操作。这个可微分模块可以插入到现有的卷积架构中,使神经网络能够根据特征图本身在空间上主动变换特征图,而无需任何额外的训练监督或对优化过程的修改。我们展示了空间变换器的使用导致模型学习平移、缩放、旋转和更通用的变形的不变性,

空间变换器用于CNNs进行空间不变的变换,因此学习过程将变得更加容易,并且网络对于具有不同类型分布的数据(噪声数据)将具有更好的性能。在本文中,我没有意识到differentiable module. 这些所谓的可微模块用于神经网络。但是可微分的含义是什么?

1个回答

“可微”意味着您可以计算模块中操作的导数,因此您可以计算损失函数相对于模块参数的梯度(即使用反向传播)。

这通常是涉及神经网络计算的操作的要求。

注意:您可以使用不可微操作作为计算图的一部分,但您将无法通过它们反向传播梯度,因此在不可微之前的操作中涉及的任何可学习参数都无法学习.