为什么杰弗里斯的先验被认为是无信息的?

机器算法验证 贝叶斯 事先的
2022-01-29 03:12:46

考虑一个 Jeffreys 先验,其中,其中是 Fisher 信息。p(θ)|i(θ)|i

我一直看到这个先验被称为无信息先验,但我从来没有看到过为什么它是无信息的争论。毕竟,它不是一个恒定的先验,所以必须有一些其他的论点。

我知道它不依赖于重新参数化,这让我想到了下一个问题。是不是Fisher信息的决定因素不依赖于重新参数化?因为 Fisher 信息肯定取决于问题的参数化。

谢谢。

4个回答

Jeffreys 先验与一维参数空间(和“常规”模型)的 Bernardo 参考先验一致。粗略地说,这是先验和后验之间的 Kullback-Leibler 散度最大的先验。这个量代表了数据带来的信息量。这就是为什么先验被认为是无信息的:这是数据带来最大信息量的先验。

顺便说一句,我不知道杰弗里斯是否知道他之前的这种描述?

由于参数化不变性,它被认为是非信息性的。您似乎有这样的印象,即统一(恒定)先验是无信息的。有时是,有时不是。

Jeffreys 的先验在变换下会发生什么,变换中的雅可比会被吸入原始的 Fisher 信息中,最终在新参数化下为您提供 Fisher 信息。没有魔法(至少在力学方面),只有一点微积分和线性代数。

我会说这不是绝对没有信息,而是信息最少。它编码(相当弱的)先验知识,您知道您的先验知识状态不依赖于其参数化(例如测量单位)。如果您的先验知识状态正好为零,您将不会知道您的先验知识对于此类转换是不变的。

这是一个古老但有趣的话题。我最近想到了这一点,并开发了一个我想分享的镜头。

首先,平面先验作为无信息先验的问题在于,这个想法植根于我们猜测数字的方式;不是数据在基于可能性的推理中猜测数字的方式。

我们可以通过比较两个二项式随机变量来理解这一点: 显然,E[X]=5 和 E[Y]=9。

XBi(x|n=10,θ=.5)YBi(y|n=10,θ=.9)

在 X 的分布下找到 E[Y]=9,而在 Y 的分布下找到 E[X]=5 的可能性0.010.0015

这一事实与参数化(赔率、对数赔率)无关。例如,如果是赔率,0.9/.1=9 的的证据不如样本赔率 1 给出的反对的证据那么多。ϕH0:ϕ=1H0:ϕ=9

因此,找到 x=5 在排除时比找到 x=9 在排除时要好得多(仅考虑一个随机变量从现在开始)。更一般地,中间很好地排除了极值,但极值并没有很好地排除中间的对数似然的预期曲率二项式随机变量的对数似然的预期曲率等于 H0:θ=.9H0:θ=.5XBi(x|n,θ)xθxθθ

nθ(1θ).
处等于 -4n ,但更大的曲率意味着更少的 X 值与的值兼容,因此更容易找到反对值的证据(意味着贝叶斯设置中的后验密度较低)。θ=.511nθ=.9θθ

Fisher 的信息对于不同的参数化是不同的,但那是因为它在不同的尺度上:曲率可能不同,但点之间的距离也是如此。最终结果是变换下的不变性。

使用杰弗里斯先验的关键点似乎是,如果我们不想帮助数据做出决定,我们应该对难以找到证据的点给予较少的权重,而对容易找到证据的点给予更多的权重找到反对的证据(例如,给予很大的权重是不公平的,因为无论如何都很难从后验中排除这一点)。上的先验进行参数化(因为 Fisher 信息在上运行) ,则它是 Fisher 信息的平方根θ=0.5θθ2

在二项式情况下,这给出了参数为 0.5 和 0.5 的 Beta 分布。的中间值(接近 0.5 的值,无论如何都很难从后验中剔除)给予较少的权重,而对的极值(接近 0 或 1 的值,很容易抛出)给予更大的权重从后面)。θθ

从这里,我看到了两条前进的道路。首先是完全拒绝无信息先验的概念,因为贝叶斯后验仍然不同于频率论可能性。第二个是说,通过使用 Jeffreys 先验,我们终于有了一种方法,在该方法下,所有的值在我们看到数据之前都是等可能的(在基于频率论似然的推理下,它们不是)。如果我阅读 Jeffreys 1946 年的论文,它似乎都是关于变换下的不变性。我可以看到这是没有信息的先验的必要条件,但我不确定它的充分性。我不知道 Jeffreys 希望纠正基于可能性的常客推理的缺陷(当然,我没有看太多),但这似乎是推论。任你选。θ