我正在自学 Andrew NG 的深度学习课程资料,来自斯坦福的机器学习课程(CS 229)。该材料可在此处获得。
我对用于推导反向传播步骤的链式法则技术有疑问(第 12 页上的公式 3.28)。具体来说,我想知道怎么来? 显然,结果不能是向量(即,) 如果我们区分一个向量 () 相对于矩阵 ()。

此外,随后的注释说两侧的大小不匹配。这真的让我很困惑:如果推导是正确的,那么两边的大小怎么可能不相等(见下文)?
如果有人能帮助解释这里的步骤,我将不胜感激!我已经花了很多日日夜夜,但一点进展都没有。谢谢!