损失函数的二阶近似(深度学习书籍,7.33)

机器算法验证 神经网络 深度学习 损失函数 衍生物
2022-03-02 03:16:23

在 Goodfellow(2016 年)关于深度学习的书中,他谈到了提前停止与 L2 正则化的等效性(https://www.deeplearningbook.org/contents/regularization.html第 247 页)。

成本函数的二次逼近j是(谁)给的:

J^(θ)=J(w)+12(ww)TH(ww)

在哪里H是 Hessian 矩阵(方程 7.33)。这是缺少中期吗?泰勒展开式应该是:

f(w+ϵ)=f(w)+f(w)ϵ+12f(w)ϵ2

1个回答

他们谈论最佳重量:

我们可以对成本函数进行建模J在权重的经验最优值附近具有二次近似w

此时,一阶导数为零——因此省略了中间项。