Hessian梯度近似外积的名称

机器算法验证 术语 坡度 黑森州
2022-03-23 20:15:02

是否有将 Hessian 近似为梯度与自身的外积的名称?

如果一个近似于log-loss的Hessian,那么梯度与自身的外积就是Fisher信息矩阵。一般来说呢?

我在解释所谓的高斯-牛顿矩阵假设(Schraudolph, NN (2002). Fasturize matrix-vector products for second-order gradient descent. Neural Computation, 14(7), 1723–38。)。我们有一个输入向量,然后是一个线性变换,然后是一个非线性损失函数。线性变换 (A) 的 Hessian 近似为梯度的外积。假设负对数损失函数 (B) 的 Hessian 矩阵是半正定的。我的问题是假设 A 是什么?

2个回答

对数似然梯度的外积的期望值信息矩阵”或“Fisher 信息”,无论我们是否使用它来代替 Hessian 的负数,参见这篇文章这也是“分数的方差”。

允许我们使用梯度的外积而不是 Hessian 的负数的关系称为信息矩阵等式,它在正确规范的假设下是有效的(这很重要,但通常没有提及),以及作为允许整合和分化互换的一些规律性条件。

也许也很有用。

注意:在许多角落它只是说“渐变的外积”而没有添加“与自身”。

最大似然估计的协方差矩阵的梯度估计的外积也称为 BHHH 估计,因为它是由 Berndt、Hall、Hall 和 Hausman 在 本文中提出的:

Berndt, E.K., Hall, B.H., Hall, R.E. and Hausman, J.A. (1974). 
"Estimation and Inference in Nonlinear Structural Models". 
Annals of Economic and Social Measurement, 3, pp. 653-665.

在围绕论文等式 (3.8) 的讨论中,您可能会获得更多详细信息来证明使用该表达式的合理性。