任何解释为什么在实践中多个线性层比单个线性层工作得更好?

人工智能 神经网络
2021-11-05 12:14:46

众所周知的数学事实是线性/仿射变换的组合仍然是线性/仿射的。举一个天真的例子,

A1A2x简直就是Ax在哪里A=A1A2

任何人都知道为什么在实践中多个线性层往往会更好地工作,即使它在数学上等同于单个线性层?任何参考表示赞赏!

1个回答

关键是神经网络中的神经元层不是仿射变换。所有常用的神经元都具有某种非线性。其中最简单的是整流线性单元 (ReLU),它采用以下形式y=x什么时候x>0y=0对于所有其他值,其中x是神经元输入的加权和。