似然函数是半正定的

机器算法验证 优化 可能性 费希尔信息
2022-03-31 17:00:36

这可能是一个非常错误的问题,但我无法弄清楚为什么它不是真的。开始:

根据维基百科这篇文章,似然函数的粗麻布等于信息矩阵,或得分函数的协方差矩阵,即:

I(θ)i,j=Eθ[(ilogfXΘ(Xθ))(jlogfXΘ(Xθ))],=E[2log(f(X|θ))θiθj|θ]

如果这是真的,那么这些结论是否成立:

  1. 似然函数的 Hessian 总是半正定 (PSD)

  2. 因此似然函数总是凸的(因为二阶导数是 PSD)

  3. 似然函数没有局部最小值,只有全局最小值!!!

这些结果似乎好得令人难以置信,但我似乎无法理解为什么它们是错误的。

谢谢!

1个回答

Fisher 信息定义

(I(θ))i,j=E[(θilogf(X;θ))(θjlogf(X;θ))|θ]

(您错误地链接到帖子中的问题,并且答案礼貌地纠正了它)。

在以下规律性条件下:
1) 所涉及的随机变量的支持不依赖于未知参数向量
2) 对数似然的导数 wrt 参数存在高达 3d 阶
3) 平方一阶导数的期望值是有限的

并且在规范正确的假设下(即指定的分布族包括随机变量遵循的实际分布),
那么费舍尔信息等于一次观察的对数似然的(负的)反向 Hessian。出于显而易见的原因,这种平等被称为“信息矩阵平等”。

虽然这三个规律性条件相对“温和”(或至少可以检查),但正确规范的假设是统计推断问题的核心,特别是对于观察数据。这个条件太强了,不容易被接受。这就是为什么证明对数似然在参数中是凹的是一个主要问题的原因(这在许多情况下会导致一致性和渐近正态性,而不管规范是否正确 - 准 MLE 情况),并且不只是通过假设信息矩阵等式成立来假设它。

所以你认为“好得令人难以置信”是绝对正确的。

另一方面,您忽略了减号的存在 - 所以对数似然的 Hessian 矩阵(对于一次观察)将是的 - 半定的,因为我们寻求最大化它,而不是最小化它。