考虑一个 Jeffreys 先验,其中,其中是 Fisher 信息。
我一直看到这个先验被称为无信息先验,但我从来没有看到过为什么它是无信息的争论。毕竟,它不是一个恒定的先验,所以必须有一些其他的论点。
我知道它不依赖于重新参数化,这让我想到了下一个问题。是不是Fisher信息的决定因素不依赖于重新参数化?因为 Fisher 信息肯定取决于问题的参数化。
谢谢。
考虑一个 Jeffreys 先验,其中,其中是 Fisher 信息。
我一直看到这个先验被称为无信息先验,但我从来没有看到过为什么它是无信息的争论。毕竟,它不是一个恒定的先验,所以必须有一些其他的论点。
我知道它不依赖于重新参数化,这让我想到了下一个问题。是不是Fisher信息的决定因素不依赖于重新参数化?因为 Fisher 信息肯定取决于问题的参数化。
谢谢。
Jeffreys 先验与一维参数空间(和“常规”模型)的 Bernardo 参考先验一致。粗略地说,这是先验和后验之间的 Kullback-Leibler 散度最大的先验。这个量代表了数据带来的信息量。这就是为什么先验被认为是无信息的:这是数据带来最大信息量的先验。
顺便说一句,我不知道杰弗里斯是否知道他之前的这种描述?
由于参数化不变性,它被认为是非信息性的。您似乎有这样的印象,即统一(恒定)先验是无信息的。有时是,有时不是。
Jeffreys 的先验在变换下会发生什么,变换中的雅可比会被吸入原始的 Fisher 信息中,最终在新参数化下为您提供 Fisher 信息。没有魔法(至少在力学方面),只有一点微积分和线性代数。
我会说这不是绝对没有信息,而是信息最少。它编码(相当弱的)先验知识,您知道您的先验知识状态不依赖于其参数化(例如测量单位)。如果您的先验知识状态正好为零,您将不会知道您的先验知识对于此类转换是不变的。
这是一个古老但有趣的话题。我最近想到了这一点,并开发了一个我想分享的镜头。
首先,平面先验作为无信息先验的问题在于,这个想法植根于我们猜测数字的方式;不是数据在基于可能性的推理中猜测数字的方式。
我们可以通过比较两个二项式随机变量来理解这一点:
显然,E[X]=5 和 E[Y]=9。
在 X 的分布下找到 E[Y]=9,而在 Y 的分布下找到 E[X]=5 的可能性。
这一事实与参数化(赔率、对数赔率)无关。例如,如果是赔率,0.9/.1=9 的的证据不如样本赔率 1 给出的反对的证据那么多。
因此,找到 x=5 在排除时比找到 x=9 在排除时要好得多(仅考虑一个随机变量从现在开始)。更一般地,中间很好地排除了极值,但极值并没有很好地排除中间。的对数似然的预期曲率。二项式随机变量的对数似然的预期曲率等于
Fisher 的信息对于不同的参数化是不同的,但那是因为它在不同的尺度上:曲率可能不同,但点之间的距离也是如此。最终结果是变换下的不变性。
使用杰弗里斯先验的关键点似乎是,如果我们不想帮助数据做出决定,我们应该对难以找到证据的点给予较少的权重,而对容易找到证据的点给予更多的权重找到反对的证据(例如,给予很大的权重是不公平的,因为无论如何都很难从后验中排除这一点)。上的先验进行参数化(因为 Fisher 信息在上运行) ,则它是 Fisher 信息的平方根。
在二项式情况下,这给出了参数为 0.5 和 0.5 的 Beta 分布。的中间值(接近 0.5 的值,无论如何都很难从后验中剔除)给予较少的权重,而对的极值(接近 0 或 1 的值,很容易抛出)给予更大的权重从后面)。
从这里,我看到了两条前进的道路。首先是完全拒绝无信息先验的概念,因为贝叶斯后验仍然不同于频率论可能性。第二个是说,通过使用 Jeffreys 先验,我们终于有了一种方法,在该方法下,所有的值在我们看到数据之前都是等可能的(在基于频率论似然的推理下,它们不是)。如果我阅读 Jeffreys 1946 年的论文,它似乎都是关于变换下的不变性。我可以看到这是没有信息的先验的必要条件,但我不确定它的充分性。我不知道 Jeffreys 希望纠正基于可能性的常客推理的缺陷(当然,我没有看太多),但这似乎是推论。任你选。