众所周知的数学事实是线性/仿射变换的组合仍然是线性/仿射的。举一个天真的例子,
简直就是在哪里
任何人都知道为什么在实践中多个线性层往往会更好地工作,即使它在数学上等同于单个线性层?任何参考表示赞赏!
众所周知的数学事实是线性/仿射变换的组合仍然是线性/仿射的。举一个天真的例子,
简直就是在哪里
任何人都知道为什么在实践中多个线性层往往会更好地工作,即使它在数学上等同于单个线性层?任何参考表示赞赏!
关键是神经网络中的神经元层不是仿射变换。所有常用的神经元都具有某种非线性。其中最简单的是整流线性单元 (ReLU),它采用以下形式什么时候和对于所有其他值,其中是神经元输入的加权和。