为什么要使用观察到的 Fisher 信息?

机器算法验证 最大似然 费希尔信息
2022-02-03 07:08:03

在标准最大似然设置(iid 样本来自密度为 ) 的某个分布)和正确指定模型的情况下,Fisher信息由Y1,,Ynfy(y|θ0

I(θ)=Eθ0[2θ2lnfy(θ)]

其中期望是相对于生成数据的真实密度而采取的。我已阅读观察到的 Fisher 信息

J^(θ)=2θ2lnfy(θ)

主要使用,因为在某些情况下,计算(预期)Fisher 信息所涉及的积分可能不可行。令我困惑的是,即使积分是可行的,也必须对真实模型采取期望,即涉及未知参数值如果是这种情况,似乎在不知道的情况下不可能计算这是真的?θ0θ0I

2个回答

这里有四个量:真实参数、一致估计、\theta 处的预期信息的观察信息 ) 这些数量只是渐近等效的,但这通常是它们的使用方式。θ0θ^I(θ)θJ(θ)θ

  1. 观测信息 以概率收敛到预期信息 是来自 的独立同分布样本时。这里表示期望 w/r/t 由索引的分布:由于大数定律,这种收敛成立,因此的假设在这里至关重要。

    J(θ0)=1Ni=1N2θ02lnf(yi|θ0)
    I(θ0)=Eθ0[2θ02lnf(y|θ0)]
    Yf(θ0)Eθ0(x)θ0xf(x|θ0)dxYf(θ0)

  2. 当你有一个估计以概率收敛到真实参数(即,是一致的)然后你可以用它代替你在上面看到的任何地方,主要是由于连续映射定理,并且所有的收敛继续成立。θ^θ0θ0

实际上,它似乎有点微妙

评论

正如您所推测的,观察到的信息通常更容易处理,因为微分比积分更容易,并且您可能已经在一些数值优化过程中对其进行了评估。在某些情况下(正态分布)它们是相同的。

Efron 和 Hinkley (1978) 的文章“评估最大似然估计量的准确性:观察到的与预期的 Fisher 信息”提出了有利于有限样本的观察到的信息的论点。

有一些模拟研究似乎支持 Efron 和 Hinkley 的理论观察(在 Andrew 的回答中提到),这是我临时知道的一个:Maldonado, G. 和 Greenland, S. (1994)。当正确的模型形式未知时,基于模型的置信区间的性能比较。流行病学, 5, 171-182。我没有看到任何有冲突的研究。有趣的是,我所知道的标准 GLM 包使用预期信息来计算 Wald 区间。当然,当(如在自然参数中线性的 GLM 中)观察到的和预期的信息矩阵相等时,这不是问题。