在具有概率密度函数的 MLE 设置中,(预期的)Fisher信息通常定义为Fisher分数的协方差矩阵,即
在正确的正则条件下,这等价于
然而,观察到的 Fisher 信息总是给出为
为什么会这样?为什么不考虑
这个答案和这个说观察到的Fisher信息是预期Fisher信息的一致估计。
这让我想到了标题中总结的问题,特别是:
- 为什么观察到的信息总是被定义为 Hessian(类似于上面预期的 Fisher 信息的第二个定义)而不是使用梯度(如第一个定义)?
- 是也是一个一致的估计?
- 为什么以及在什么意义上是“好”于在实践中使用它时?例如作为构建置信区间的基础。
编辑:我发现了有时称为经验费舍尔信息(McLachlan 和 Krishnan,1997,第 4.3 节)。尽管如此,我还没有找到为什么这不如.