关于 Fisher 信息矩阵以及与 Hessian 和标准误差的关系的基本问题

机器算法验证 最大似然 费希尔信息
2022-01-31 00:24:21

好的,这是一个非常基本的问题,但我有点困惑。在我的论文中,我写道:

可以通过计算(观察到的)Fisher 信息矩阵的对角元素的平方根的倒数来找到标准误差:

sμ^,σ^2=1I(μ^,σ^2)
由于 R 中的优化命令最小化logL(观察到的)Fisher 信息矩阵可以通过计算 Hessian 的逆矩阵来找到:
I(μ^,σ^2)=H1

我的主要问题是:我所说的是否正确

我有点困惑,因为在第 7 页的这个来源中它说:

信息矩阵是 Hessian 矩阵期望值的负数

(所以没有 Hessian 的倒数。)

而在第 7 页(脚注 5)的此来源中,它说:

观察到的 Fisher 信息等于(H)1.

(所以这是相反的。)

我知道减号以及何时使用它以及何时不使用它,但是为什么取反有区别?

2个回答

Yudi Pawitan 在他的书In All Likelihood中写道,在最大似然估计 (MLE) 处评估的对数似然的二阶导数是观察到的 Fisher 信息(另请参见本文档,第 1 页)。这正是大多数优化算法所喜欢optimR回报:在 MLE 上评估的 Hessian。对数似然最小化,则返回负 Hessian。正如您正确指出的那样,MLE 的估计标准误差是观察到的 Fisher 信息矩阵的逆对角元素的平方根。换句话说: Hessian 的逆(或负 Hessian)的对角元素的平方根是估计的标准误差。

概括

  • 在 MLE 评估的负 Hessian 与在 MLE 评估的观察到的 Fisher 信息矩阵相同。
  • 关于您的主要问题:不,通过反转(负)Hessian 可以找到观察到的 Fisher 信息是不正确的。
  • 关于你的第二个问题:(负)Hessian 的逆是渐近协方差矩阵的估计量。因此,协方差矩阵的对角元素的平方根是标准误差的估计量。
  • 我认为您链接到的第二个文档弄错了。

正式地

l(θ)是一个对数似然函数。Fisher信息矩阵 I(θ)是对称的(p×p)包含条目的矩阵:

I(θ)=2θiθjl(θ),    1i,jp
观察到 的Fisher 信息矩阵很简单I(θ^ML),以最大似然估计 (MLE) 评估的信息矩阵。Hessian 定义为:
H(θ)=2θiθjl(θ),    1i,jp
它只是似然函数关于参数的二阶导数矩阵。因此,如果您最小化对数似然,则返回的 Hessian 等效于观察到的 Fisher 信息矩阵,而在最大化对数似然的情况下,Hessian 是观察到的信息矩阵。

此外,Fisher 信息矩阵的逆矩阵是渐近协方差矩阵的估计量:

Var(θ^ML)=[I(θ^ML)]1
标准误差是协方差矩阵的对角元素的平方根。对于最大似然估计的渐近分布,我们可以写
θ^MLaN(θ0,[I(θ^ML)]1)
在哪里θ0表示真正的参数值。因此,最大似然估计的估计标准误差由下式给出:
SE(θ^ML)=1I(θ^ML)

估计似然函数需要一个两步过程。

首先,声明对数似然函数。然后优化对数似然函数。没关系。

在 R 中编写对数似然函数,我们要求1l(在哪里l表示对数似然函数),因为 R 中的 optim 命令默认最小化一个函数。-l 的最小化与 l 的最大化相同,这就是我们想要的。

现在,观察到的 Fisher 信息矩阵等于(H)1. 我们不必将 Hessian 乘以 -1 的原因是评估是根据 -1 倍的对数似然进行的。这意味着 optim 生成的 Hessian 矩阵已经乘以 -1。