梯度下降方程的单位不一致

机器算法验证 机器学习 梯度下降 单位
2022-03-23 05:59:17

梯度下降的更新算法是

θj=θjαθjJ(θ)

θjJ(θ)有每单位成本的单位θθj有单位θ和常数α是无量纲的,为什么我们可以对具有不同单位的两个元素使用减法?

2个回答

正如评论中的讨论所得出的结论,维度分析需要α实际上是在必要的单位中

αjθjJ(θ)

具有相同的单位θj

出于同样的原因,一条线的斜率不是“运行”,而是“上升”超过“运行”,梯度不是你的 theta 参数空间中的位移......任何告诉你的人都是错误的. 这就是为什么单位不匹配的原因。然而,梯度的基本特性是函数的方向导数在与梯度平行的方向上最大化。这是有道理的,因为梯度向量分量都是函数的“上升”除以每个参数中的“运行”(即它们是每个方向的斜率)。如果函数(超)曲面的切线斜率在一个参数中比另一个参数强 5 倍,那么您将希望在强参数中移动比另一个参数大 5 倍。如果单位困扰你,