为什么在仿射层之后需要激活函数(如 ReLU)?

数据挖掘 机器学习 深度学习 美国有线电视新闻网
2021-09-17 03:43:43

在卷积神经网络中,假设仿射层的输入和输出是 xy, 分别。这种仿射操作y=Wx+b 已经给系统增加了非线性,因为 b0.

为什么我们仍然需要像 ReLU 这样的函数来为系统添加非线性?

1个回答

这种仿射操作 y=Wx+b 已经给系统增加了非线性,因为 b0.

在数据科学的背景下,这不被视为非线性。不同学科有时以微妙不同的方式定义线性。至关重要的是,+b在拟合数据方面表现相同,如扩展x总是有一个新的维度1,并移动的值b进入权重W. 这种更简单的乘法显然是线性的。

同样重要的是,仿射变换形成一个组,使得任何两个仿射变换组合起来只是另一个具有不同参数的仿射变换。如果隐藏层中没有非线性,则 2 层神经网络将与单层神经网络相同,并且无法在非线性关系上学习整个类。

例如,无论您对输入应用了多少仿射变换,您都无法逼近 XOR 函数或y=sin(x)