数据挖掘 - 为什么在仿射层之后需要激活函数（如 ReLU）？ - 吾爱随笔录 - 问答

为什么在仿射层之后需要激活函数（如 ReLU）？

数据挖掘机器学习深度学习美国有线电视新闻网

2021-09-17 03:43:43

在卷积神经网络中，假设仿射层的输入和输出是 $x$ 和 $y$ ，分别。这种仿射操作 $y = W^{\top} x + b$ 已经给系统增加了非线性，因为 $b \neq 0$ .

为什么我们仍然需要像 ReLU 这样的函数来为系统添加非线性？

1个回答

这种仿射操作 $y = W^{\top} x + b$ 已经给系统增加了非线性，因为 $b \neq 0$ .

在数据科学的背景下，这不被视为非线性。不同学科有时以微妙不同的方式定义线性。至关重要的是， $+b$ 在拟合数据方面表现相同，如扩展 $x$ 总是有一个新的维度 $1$ ，并移动的值 $b$ 进入权重 $W$ . 这种更简单的乘法显然是线性的。

同样重要的是，仿射变换形成一个组，使得任何两个仿射变换组合起来只是另一个具有不同参数的仿射变换。如果隐藏层中没有非线性，则 2 层神经网络将与单层神经网络相同，并且无法在非线性关系上学习整个类。

例如，无论您对输入应用了多少仿射变换，您都无法逼近 XOR 函数或 $y=\text{sin}(x)$

其它你可能感兴趣的问题

上一篇预测线性回归的准确性下一篇如何找到 keras 模型的 AUC 度量值？