在深度学习中,是否可以使用不连续的激活函数(例如具有跳跃不连续性的激活函数)?
(我的猜测:例如,ReLU 在单点是不可微分的,但它仍然具有明确定义的导数。如果激活函数具有跳跃不连续性,那么它的导数应该在该点具有 delta 函数。但是,反向传播过程无法考虑那个delta函数,所以凸优化过程会出现一些问题?)
在深度学习中,是否可以使用不连续的激活函数(例如具有跳跃不连续性的激活函数)?
(我的猜测:例如,ReLU 在单点是不可微分的,但它仍然具有明确定义的导数。如果激活函数具有跳跃不连续性,那么它的导数应该在该点具有 delta 函数。但是,反向传播过程无法考虑那个delta函数,所以凸优化过程会出现一些问题?)
甚至第一个人工神经网络——Rosenblatt 的感知器 [ 1 ] 也具有不连续的激活函数。该网络出现在许多关于人工智能的教科书的介绍性章节中。例如,迈克尔·内格涅维茨基。人工智能:智能系统指南。第二版在第 170-174 页展示了如何训练这样的网络。
可以修改误差反向传播算法以适应不连续的激活函数。详情见论文[ 2 ]。那篇论文指出了一个可能的应用:在微控制器上训练神经网络。作为前一层输出的乘积按重量很昂贵,作者建议用左移来近似它位(乘以) 对应的在这种情况下,激活函数是不连续的(楼梯)。
具有不连续激活函数的神经网络的示例应用于退化图像的恢复,参见参考文献。[ 3 ]。具有不连续激活函数的递归神经网络在凸优化问题中的应用见参考文献。[ 4 ]。可能更多的例子可以在文献中找到。
参考
我想说这是可能的,但可能不是一个好主意。就像你说的,硬性要求是网络(以及它的组件,包括激活函数)必须是可微的。ReLU 不是,但您可以通过将 f'(0) 定义为 0(或 1)来作弊。
连续函数意味着梯度下降会导致一些局部最小值¹,对于分段连续函数,它可能不会收敛(即断点本身可能不是您下降的部分的一部分,因此您永远不会达到实际最小值)。不过,这在实践中不太可能成为问题。
¹ 至少对于从下方有界的函数,例如成本函数。