我非常了解如何推导公式并为深度神经网络实现随机梯度下降(即使隐藏层的总导数魔法有点突破我的极限)。
我正在努力掌握将方法推广到批量或小批量训练的基础知识。
据我了解,在批量训练中,您会前馈所有批次的示例,然后反向传播错误。
在随机反向传播中,大多数计算涉及对神经元的激活求误差的导数。但是在批量训练的情况下,每个训练示例都有一个激活。你平均他们还是什么?还是数学完全不同?
是否有一个不涉及张量的简单示例?
我非常了解如何推导公式并为深度神经网络实现随机梯度下降(即使隐藏层的总导数魔法有点突破我的极限)。
我正在努力掌握将方法推广到批量或小批量训练的基础知识。
据我了解,在批量训练中,您会前馈所有批次的示例,然后反向传播错误。
在随机反向传播中,大多数计算涉及对神经元的激活求误差的导数。但是在批量训练的情况下,每个训练示例都有一个激活。你平均他们还是什么?还是数学完全不同?
是否有一个不涉及张量的简单示例?
你平均他们还是什么?
是的!小批量的损失梯度只是小批量中单个样本的梯度的简单平均值。请参阅深度学习书的第 8.1.3 节:
因此,我们可以通过对小批量示例进行采样来获得泛化误差精确梯度的无偏估计量 有相应的目标从数据生成分布,然后计算关于该小批量参数的损失梯度: