
我的问题是:
假设我们有一个 3 x 1 的神经网络,类似于图像中的那个(输入层有 3 个神经元,输出层有一个神经元但没有隐藏层),我发现计算前向和反向传播的输出没有问题当用一个训练样本(即 feature1、feature2、feature3 输入)给神经网络喂食时,我确切地知道我的初始权重是如何优化的,我发现的问题是每次给 NN 喂食多个训练输入时,在这里,我没有不知道如何优化初始权重。
例如,我们有 3 × 3 矩阵的训练输入。
[[195, 90, 41],
[140, 50, 30],
[180, 85, 43]]
第一列是身高,第二列:体重,第三列:鞋码,我们先给 NN 输入第一行,然后是第二行和第三行。我们知道,要在给 NN 提供一个训练样本时计算新的权重,我们依赖这个公式:New_weights = Initial_weights - learning_rate ×(损失函数对权重的导数)。
但是,当我们为 NN 提供多个训练示例时,我们使用哪个公式?我们是计算所有 dw 的平均值(损失函数对权重的导数),还是我们将所有这些求和然后乘以学习率并从初始权重中减去它们还是什么?我在这里有点困惑。
如果你们中的任何人能解释在为 NN 提供多个训练输入时如何修改初始权重,我将不胜感激。