当我混合激活函数时会发生什么?

人工智能 神经网络 机器学习 激活函数 雷路 乙状结肠
2021-11-05 23:36:57

有几种激活函数,例如 ReLU、sigmoid 或tanh. 当我混合激活函数时会发生什么?

我最近发现 Google 开发了 Swish 激活函数,即 (x*sigmoid)。通过改变激活函数可以提高 XOR 问题等小型神经网络问题的准确性吗?

1个回答

组合常见激活函数行为的一般答案是必须应用微积分定律,特别是微积分,必须通过实验获得结果才能确定组合函数的质量,并且额外的复杂性可能会增加计算时间。这种增加的例外是当组合的计算负担与组合提供的收敛优势相比较小时。

Swish 似乎是这样,激活函数的名称定义为

f(x)=xS(βx),

在哪里f()是 Swish 激活函数和S是 sigmoid 函数。请注意,Swish 并不是严格意义上的激活函数组合。它是通过添加一个超参数形成的β在 sigmoid 函数内部,并将输入与 sigmoid 函数结果相乘。

它似乎不是由 Google 开发的。最初匿名提交的论文(作为 ICLR 2018 论文的双盲评审),Searching for Activation Functions,由 Prajit Ramachandran、Barret Zoph 和 Quoc V. Le 于 2017 年左右撰写。这是他们的主张。

我们的实验表明,在许多具有挑战性的数据集上,在更深层次的模型上,发现的最好的激活函数 ... Swish ... 往往比 ReLU 工作得更好。

任何一层的激活函数的任何变化都会影响准确性、可靠性和计算效率,除非在天文罕见的情况下。变化是否显着不能一概而论。这就是为什么新想法要针对传统上用来衡量有用性的数据集进行测试的原因1

组合激活函数以形成新的激活函数并不常见。例如,AlexNet 没有将它们结合起来。2 . 然而,在单个有效网络设计的不同层中使用不同的激活函数是很常见的。


脚注

[1] 这些传统是否会造成偏见是另一个问题。那些遵循瑞典计算机科学家 Ivar Hjalmar Jacobson 开创的用例分析理论或 6 Sigma 理念的人会说,这些测试是单元测试,而不是针对现实世界用例的功能测试,他们有道理。

[2] 为了纠正另一个答案 AlexNet 可能引起的任何误解,AlexNet 是由 University of University 的 Alex Krizhevsky、Ilya Sutskever 和 Geoffrey E. Hinton在ImageNet Classification with Deep Convolutional Neural Networks (2012) 中概述的方法的名称Toronto,不涉及组合激活函数来形成新的。他们写这个。

最后一个全连接层的输出被馈送到一个 1000 路的 softmax,它产生了 1000 个类别标签的分布。

...

ReLU 非线性应用于每个卷积和全连接层的输出。内部层是纯 ReLU,输出层是 Softmax。

他们使用的 AlexNet 方法的一系列层中也有卷积核和池化层,该设计自 2012 年赢得 ImageNet 比赛以来已进入普遍使用。其他方法也赢得了后续比赛。