为什么将观察到的 Fisher 信息定义为对数似然的 Hessian?

机器算法验证 估计 最大似然 期望值 渐近的 费希尔信息
2022-04-04 02:55:42

在具有概率密度函数的 MLE 设置中f(X,θ),(预期的)Fisher信息通常定义为Fisher分数的协方差矩阵,即

I(θ)=Eθ(logf(X;θ)θlogf(X;θ)θT).
在正确的正则条件下,这等价于
I(θ)=Eθ(2logf(X;θ)θ2).

然而,观察到的 Fisher 信息总是给出为

J(θ)=2logf(x;θ)θ2.

为什么会这样?为什么不考虑

J~(θ)=logf(x;θ)θlogf(x;θ)θT.

这个答案这个说观察到的Fisher信息是预期Fisher信息的一致估计。

这让我想到了标题中总结的问题,特别是:

  • 为什么观察到的信息总是被定义为 Hessian(类似于上面预期的 Fisher 信息的第二个定义)而不是使用梯度(如第一个定义)?
  • J~也是一个一致的估计I?
  • 为什么以及在什么意义上是J“好”于J~在实践中使用它时?例如作为构建置信区间的基础。

编辑:我发现了J~有时称为经验费舍尔信息(McLachlan 和 Krishnan,1997,第 4.3 节)。尽管如此,我还没有找到为什么这不如J.

1个回答

我发现 MLE 中的文献在这里的命名法有点模糊,所以我可能会有些东西,我会尽量坚持你介绍的命名法。

我们有观察到的 Fisher 信息:

[J(θ)]ij=(2logfθiθj)

和经验费舍尔信息:

[J~(θ)]ij=(logfθi)(logfθj)

并且可以证明,具有规律性(基本可微)条件(参见https://stats.stackexchange.com/a/101530/60613):

[I(θ)]ij=E[[J(θ)]ij]=E[[J~(θ)]ij]

那么,为什么不使用J~代替J? 好吧,我们实际上两者都用。

区别在于,使用J~(预期 Hessian)对于 MLE,我们正在做 IWLS(Fisher 评分),而J(观察到的 Hessian)导致 Newton-Raphson。 J~对于非过度参数化的对数似然,保证是正定的(因为您拥有的数据多于参数,所以协方差是满秩的,请参阅为什么 Fisher 信息矩阵是半正定的?),并且该过程从中受益。 J不享受这样的好处。

如果我们对指数族分布的规范参数执行 MLE,那么两者实际上是相同的。