机器算法验证 - 为什么将观察到的 Fisher 信息定义为对数似然的 Hessian？ - 吾爱随笔录

为什么将观察到的 Fisher 信息定义为对数似然的 Hessian？

机器算法验证估计最大似然期望值渐近的费希尔信息

2022-04-04 02:55:42

在具有概率密度函数的 MLE 设置中 $f(X, \theta)$ ，（预期的）Fisher信息通常定义为Fisher分数的协方差矩阵，即

I (θ) = E_{θ} (\frac{\partial \log f (X; θ)}{\partial θ} \frac{\partial \log f (X; θ)}{\partial θ^{T}}) .

$I(\theta) = E_\theta \left( \frac{\partial \log f(X; \theta)}{\partial \theta} \frac{\partial \log f(X; \theta)}{\partial \theta^T}\right).$ 在正确的正则条件下，这等价于

I (θ) = - E_{θ} (\frac{\partial^{2} \log f (X; θ)}{\partial θ^{2}}) .

$I(\theta) = -E_{\theta}\left(\frac{\partial^2 \log f(X; \theta)}{\partial \theta^2} \right).$

然而，观察到的 Fisher 信息总是给出为

J (θ) = - \frac{\partial^{2} \log f (x; θ)}{\partial θ^{2}} .

$J(\theta) = -\frac{\partial^2 \log f(x; \theta)}{\partial \theta^2}.$

为什么会这样？为什么不考虑

\tilde{J} (θ) = \frac{\partial \log f (x; θ)}{\partial θ} \frac{\partial \log f (x; θ)}{\partial θ^{T}} .

$\tilde{J}(\theta) = \frac{\partial \log f(x; \theta)}{\partial \theta} \frac{\partial \log f(x; \theta)}{\partial \theta^T}.$

这个答案和这个说观察到的Fisher信息是预期Fisher信息的一致估计。

这让我想到了标题中总结的问题，特别是：

为什么观察到的信息总是被定义为 Hessian（类似于上面预期的 Fisher 信息的第二个定义）而不是使用梯度（如第一个定义）？
是 $\tilde{J}$ 也是一个一致的估计 $I$ ?
为什么以及在什么意义上是 $J$ “好”于 $\tilde{J}$ 在实践中使用它时？例如作为构建置信区间的基础。

编辑：我发现了 $\tilde{J}$ 有时称为经验费舍尔信息（McLachlan 和 Krishnan，1997，第 4.3 节）。尽管如此，我还没有找到为什么这不如 $J$ .

1个回答

我发现 MLE 中的文献在这里的命名法有点模糊，所以我可能会有些东西，我会尽量坚持你介绍的命名法。

我们有观察到的 Fisher 信息：

{[J (θ)]}_{i j} = - (\frac{\partial^{2} \log f}{\partial θ_{i} \partial θ_{j}})

$\left[\mathcal {J}(\theta)\right]_{ij} = -\left(\frac{\partial^2 \log f}{\partial \theta_i \partial \theta_j}\right)$

和经验费舍尔信息：

{[\tilde{J} (θ)]}_{i j} = (\frac{\partial \log f}{\partial θ_{i}}) (\frac{\partial \log f}{\partial θ_{j}})

$\left[\mathcal {\tilde J}(\theta)\right]_{ij} = \left(\frac{\partial \log f}{\partial \theta_i}\right)\left(\frac{\partial \log f}{\partial \theta_j}\right)$

并且可以证明，具有规律性（基本可微）条件（参见https://stats.stackexchange.com/a/101530/60613）：

{[I (θ)]}_{i j} = E [{[J (θ)]}_{i j}] = E [{[\tilde{J} (θ)]}_{i j}]

$\left[\mathcal I(\theta)\right]_{ij} = E\left[\left[\mathcal J(\theta)\right]_{ij}\right] = E\left[\left[\mathcal {\tilde J}(\theta)\right]_{ij}\right]$

那么，为什么不使用 $\mathcal {\tilde J}$ 代替 $\mathcal J$ ? 好吧，我们实际上两者都用。

区别在于，使用 $\mathcal {\tilde J}$ （预期 Hessian）对于 MLE，我们正在做 IWLS（Fisher 评分），而 $\mathcal {J}$ （观察到的 Hessian）导致 Newton-Raphson。 $\tilde {\mathcal J}$ 对于非过度参数化的对数似然，保证是正定的（因为您拥有的数据多于参数，所以协方差是满秩的，请参阅为什么 Fisher 信息矩阵是半正定的？），并且该过程从中受益。 ${\mathcal J}$ 不享受这样的好处。

如果我们对指数族分布的规范参数执行 MLE，那么两者实际上是相同的。

其它你可能感兴趣的问题

上一篇ANN的一个具有挑战性的问题下一篇如何在 Python 中对面板数据进行多级模型/回归？