我们为什么不转置δl + 1δl+1在反向传播?

数据挖掘 神经网络 反向传播
2022-03-08 09:37:38

以这个神经网络为例:

神经网络示例

那么权重矩阵是

W0=[2×4],W1=[4×4],W2=[4×2]

为了找到最后一层的错误,我们使用 这是有道理的。这将产生一个向量。但是为了在下一层找到错误,我们使用

δ[2]=Cσ(z[2])
[1×2]
δ[1]=(W2Tδ[2])σ(z[1])

这似乎试图将矩阵和矩阵相乘,这是非法的。我对图层的表示方式是错误的吗?真的应该是[向量吗?这对我来说真的没有意义,因为随着前馈的继续,它将乘以我们是否总是将表示为向量,并且公式没有提及这一点,因为它是常识?[4×2][1×2]z[n][l×1][l×m]δ[n][l×1]

我在这里想念什么?

注:这些公式是基于本书的

1个回答

你这里有一些错误的维度。重量大小的规则W[l]=dldl1

W0=[42]

W2=[24]

作为

dim(z[2])=[21]

也是

δ[2]

所以

W2Tδ2[42][21]=[41]dimension