为什么 tanh 是一个“平滑”的可微函数?

人工智能 神经网络 术语 数学 激活函数
2021-10-28 03:59:22

sigmoid、tanh 和 ReLU 是文献中流行且有用的激活函数。

以下摘自神经网络和神经语言模型的 p4 的摘录说它tanh有几个有趣的属性。

例如,tanh 函数具有 平滑可微分和将异常值映射到平均值的优良特性。

如果一个函数在函数域中的每一点都是可微的,则称该函数是可微的。的域tanhRexexex+ex是可微的R.

但是在激活函数的情况下, “平滑可微”是什么意思?tanh

1个回答

平滑函数通常定义为n-次连续可微,这意味着f,f,,f(n1)都是可微的并且f(n)是连续的。此类函数也称为Cn职能。

这可能是一个模糊的术语。有些人甚至可能会扩展定义并说任何连续函数都是平滑的(尽管如果我亲眼看到它在使用中,我会有点惊讶)。其他人写平滑表示无限可微:例如f(x)=ex可以根据需要区分多次。

我想作者试图指出的是 ReLU 整流器函数不可微。即使您使用将 ReLU 视为处处可微的“技巧” 1,您仍然会得到一个不连续的导数:

ReLU(x)={1x00otherwise.

因此,可以公平地说,ReLU 在相同意义上不是平滑的tanh函数,它有一个连续的导数(事实上,你可以继续并考虑更高的导数)。


1如果这听起来不熟悉,请参阅第 1 页。Bengio 等人的深度学习第188页。我们可以绕过 ReLU 函数在零处不可微的事实,只需假装它具有明确定义的零或一导数。也许有点不诚实,但效果很好。