梯度下降的更新算法是
有每单位成本的单位但有单位和常数是无量纲的,为什么我们可以对具有不同单位的两个元素使用减法?
梯度下降的更新算法是
有每单位成本的单位但有单位和常数是无量纲的,为什么我们可以对具有不同单位的两个元素使用减法?
正如评论中的讨论所得出的结论,维度分析需要实际上是在必要的单位中
具有相同的单位
出于同样的原因,一条线的斜率不是“运行”,而是“上升”超过“运行”,梯度不是你的 theta 参数空间中的位移......任何告诉你的人都是错误的. 这就是为什么单位不匹配的原因。然而,梯度的基本特性是函数的方向导数在与梯度平行的方向上最大化。这是有道理的,因为梯度向量分量都是函数的“上升”除以每个参数中的“运行”(即它们是每个方向的斜率)。如果函数(超)曲面的切线斜率在一个参数中比另一个参数强 5 倍,那么您将希望在强参数中移动比另一个参数大 5 倍。如果单位困扰你,