神经网络中反向传播的目的

数据挖掘机器学习神经网络逻辑回归反向传播损失函数

2022-02-16 11:48:53

我刚刚完成了对线性和逻辑回归函数及其优化的概念研究，为神经网络做准备。

例如，假设我们正在使用逻辑回归执行二元分类，让我们定义变量：

$x$ - 包含所有输入的向量。

$y$ - 包含所有输出的向量。

$w_{0}$ - 偏差权重变量。

$W=(w_1,...,w_{2})$ - 包含所有权重变量的向量。

$f(x_i)=w_{0}+\sum_{i=1}x_{i}w_{i}=w_{0}+x^{T}W$ - 所有权重变量的总和。

$p(x_{i})=\frac{1}{1+e^{-f(x_i)}}$ - 逻辑激活函数（sigmoid），表示条件概率 $y_i$ 将是 1 给定的观察值 $x_i$ .

$L=-\frac{1}{N} \sum^{N}_{i=0} y_i*ln(p(x_i))+(1-y_i)*ln(1-p(x_i))$ - 二元交叉熵损失函数（伯努利随机变量的 Kullback-Leibler 散度加上表示概率的激活函数的熵）

$L$ 是多维函数，所以必须用偏导数来微分，即：

\frac{\partial L}{\partial w}

$\frac{\partial{L}}{\partial{w}}$

然后，链式法则给出：

\frac{\partial L}{\partial w_{1}} = \frac{\partial L}{\partial p_{i}} \frac{\partial p_{i}}{\partial w_{1}}

$\frac{\partial{L}}{\partial{w_1}}=\frac{\partial{L}}{\partial{p_i}} \frac{\partial{p_i}}{\partial{w_1}}$

经过几次计算，损失函数的导数为：

(y_{i} - p_{i}) * x_{i}

$(y_i-p_i)*x_i$

所以我们得到了损失函数的导数，所有的权重都用梯度下降分别训练。

反向传播与此有什么关系？更准确地说，当我们可以简单地插入变量并计算每一步的梯度时，自动微分的意义何在，对吗？

简而言之

我们已经计算了导数，那么当我们可以插入变量时，在每一步计算它们有什么意义呢？

反向传播只是在每次迭代中优化权重的花哨术语吗？

1个回答

反向传播只是在每次迭代中优化权重的花哨术语吗？

几乎。反向传播是使用链式法则的一个花哨的术语。

当您有多个层时，将其视为一个单独的东西会变得更有用，因为与您应用链式规则一次的示例不同，您确实需要多次应用它，并且逐层应用它最方便层以与前馈步骤相反的顺序。

例如，如果你有两层， $l$ 和 $l-1$ 带权重矩阵 $W^{(l)}$ 连接它们，每一层中神经元的非激活总和 $z_i^{(l)}$ 和激活函数 $f()$ ，然后您可以使用一般方程将层与层之间的总和（通常称为logits，因为它们可以传递给逻辑激活函数）处的梯度联系起来：

\frac{\partial L}{\partial z_{j}^{(l - 1)}} = f^{'} (z_{j}^{(l - 1)}) \sum_{i = 1}^{N^{(l)}} W_{i j}^{(l)} \frac{\partial L}{\partial z_{i}^{(l)}}

$\frac{\partial L}{\partial z^{(l-1)}_j} = f'(z^{(l-1)}_j) \sum_{i=1}^{N^{(l)}} W_{ij}^{(l)} \frac{\partial L}{\partial z^{(l)}_i}$

这只是应用于前馈网络通用方程的链式法则的两个步骤。它不提供权重的梯度，这是您最终需要的 - 有一个单独的步骤 - 但它确实将层连接在一起，并且是最终获得权重的必要步骤。这个等式可以变成一种算法，通过层逐步回溯——即反向传播。

更准确地说，当我们可以简单地插入变量并计算每一步的梯度时，自动微分的意义何在，对吗？

这正是自动微分正在做的事情。本质上是“自动微分”=“链式法则”，应用于有向函数图中的函数标签。

其它你可能感兴趣的问题

上一篇CNN 和任何多层神经网络的概念问题（第 2 部分）下一篇为什么只能在集成方法中使用额外树？