为什么多层感知器(MLP)的隐藏层中的每个神经元通常具有与相同或其他隐藏层中的每个其他神经元相同的激活函数(所以我排除了通常具有不同激活函数的输出层) MLP 的?这是一个要求吗,有什么优势,或者这只是一个经验法则?
为什么多层感知器的隐藏层中的每个神经元通常具有相同的激活函数?
人工智能
神经网络
深度学习
激活函数
多层感知器
超参数
2021-11-05 17:41:46
1个回答
正如您所说,在隐藏层中使用某种形式的整流线性单元 (ReLU) 激活是很流行的,而输出层通常是softmax或 sigmoid(也取决于问题:分别是多类或二元分类),这提供可以被视为概率分布的输出。
您可以将其进一步推广到同一层内的不同激活函数块。这是我想过的事情,还没有做过,但已经尝试过想象。从某种意义上说,这里的想法是允许网络的一个子部分开发一种在其他情况下可能不可行的表示。随着我们靠近输出,同一层内的这些不同表示将被后续层统一起来。
其它你可能感兴趣的问题