什么是“无信息先验”?我们能拥有一个真正没有信息的人吗?

机器算法验证 贝叶斯 事先的 无信息先验
2022-02-09 23:00:50

受此问题评论的启发:

我们认为先验中的“无信息”是什么 - 什么信息仍包含在所谓的无信息先验中?

我通常在分析中看到先验,它要么是频率主义者类型的分析,试图从贝叶斯分析中借用一些好的部分(可能是一些更容易解释,一直到“它是最热门的事情”),指定的先验是在效果度量的范围内均匀分布,以 0 为中心。但即使这样也可以确定先验形状 - 它恰好是平坦的。

使用前是否有更好的非信息性?

4个回答

[警告:作为ISBA客观贝叶斯组的持卡人,我的观点并不完全代表所有贝叶斯统计学家!,恰恰相反……]

总之,没有“真正没有信息”的先验。

事实上,“无信息”先验的概念令人遗憾的是用词不当。任何先前的分布都包含一些类似于一定量信息的规范。甚至(或特别是)统一的先验。一方面,统一先验仅对于问题的一个给定参数化是平坦的。如果一个改变到另一个参数化(甚至是有界的),变量的雅可比变化进入图片和密度,因此先验不再是平坦的。

正如猫王所指出的,最大熵是提倡选择所谓的“无信息”先验的一种方法。然而,它需要(a)关于某些时刻的某种程度的信息h(θ)的先验分布π()指定约束

Θh(θ)dπ(θ)=h0
导致 MaxEnt 先验
π(θ)exp{λTh(θ)}
(b) 参考措施的初步选择dμ(θ)[在连续设置中],一个将辩论带回初始阶段的选择!(此外,约束的参数化(即,h) 会影响生成的MaxEnt先验的形状。)

José Bernardo提出了一个原始的参考先验理论,他选择先验是为了通过最大化先验和后验之间的 Kullback 距离来最大化数据带来的信息。在没有干扰参数的最简单情况下,解决方案是 Jeffreys 的先验。在更复杂的问题中,(a) 必须选择感兴趣的参数(或者甚至对其感兴趣的顺序进行排序);(b) 先验的计算相当复杂,需要一系列嵌入的紧集来避免不适当的问题。(有关详细信息,请参见例如贝叶斯选择。)

有趣的是,贝叶斯观点之外的一些研究人员一直在开发称为置信度分布的程序,这些程序是参数空间上的概率分布,由基于频率的程序的反演构建,没有明确的先验结构,甚至没有对该参数空间的主导测量。他们认为,没有明确定义的先验是一个优点,尽管结果肯定取决于初始化基于频率的过程的选择

简而言之,对于“the”“uninformative”之前没有“最佳”(甚至“更好”)选择。我认为事情应该是这样的,因为贝叶斯分析的本质意味着先验分布的选择很重要。并且没有先验的比较:一个不能比另一个“更好”。(至少在观察数据之前:一旦观察到,先验比较就成为模型选择。) José Bernardo、Jim Berger、Dongchu Sun 和许多其他“客观”贝叶斯主义者的结论是,存在大致等效的参考先验,我们可以在不确定自己的先验信息或寻求基准贝叶斯推理时使用,其中一些先验部分得到信息论论证的支持,

正式的非信息先验的一个吸引人的属性是“频率匹配属性”:这意味着后验 95% 的可信度区间也是(至少,大约)频率学意义上的 95% 置信区间。此属性适用于 Bernardo 的参考先验,尽管这些非信息先验的基础并不旨在实现良好的频率匹配属性,如果您使用“朴素”(“平坦”)非信息先验,例如均匀分布或高斯具有巨大差异的分布,则不能保证频率匹配属性成立。也许贝尔纳多的参考先验不能被认为是非信息性先验的“最佳”选择,但可以被认为是最成功的选择。

Jeffreys 分布也存在不一致:变量的 Jeffreys 先验(,)或以上(0,)是不正确的,对于概率参数的 Jeffreys 先验而言,情况并非如此p: 的措施dp/p(1p)有大量π超过(0,1).

Renyi 已经表明,非信息分布必须与不正确的积分相关联。请参阅Lhoste 的分布,它避免了这个困难并且在变量的变化下是不变的(例如,对于p, 度量是dp/p(1p))。


参考

E. LHOSTE : "Le calcul des probabilités appliqué à l'artillerie", Revue d'artillerie , tome 91, mai à août 1923

A. RENYI:“关于概率的新公理理论” Acta Mathematica,Académie des Sciences hongroises,第六卷,fasc.3-4,1955

M. DUMAS : "Lois de probabilité a priori de Lhoste", Sciences et technologies de l'armement , 56, 4ème fascicule, 1982, pp 687-715

我同意西安的出色回答,指出没有任何一个先验在不携带信息的意义上是“无信息的”。为了扩展这个主题,我想指出一种替代方法是在不精确的概率框架内进行贝叶斯分析(参见特别是Walley 1991Walley 2000)。在这个框架内,先验信念由一组概率分布表示,这导致了一组相应的后验分布。这听起来可能不是很有帮助,但它实际上是相当惊人的。即使有一组非常广泛的先验分布(其中某些矩可以跨越所有可能的值),您通常仍然会后验收敛到单个后验,因为n.

这个分析框架已被 Walley 公理化为它自己特殊形式的概率分析,但本质上等同于使用一组先验的稳健贝叶斯分析,产生一组相应的后验。在许多模型中,可以设置一组“无信息”的先验,允许某些矩(例如,先验均值)在整个可能的值范围内变化,这仍然会产生有价值的后验结果,其中后验是有界的更紧。可以说,这种分析形式更好地声称被称为“无信息”,至少就能够在其整个允许范围内变化的时刻而言。


一个简单的例子——伯努利模型:假设我们观察数据X1,...,Xn|θIID Bern(θ)在哪里θ是感兴趣的未知参数。通常我们会使用 beta 密度作为先验(Jeffrey 的先验和参考先验都是这种形式)。我们可以根据先验均值来指定这种形式的先验密度μ和另一个参数κ>1作为:

π0(θ|μ,κ)=Beta(θ|μ,κ)=Beta(θ|α=μ(κ1),β=(1μ)(κ1)).

(此表格给出了先前的时刻E(θ)=μV(θ)=μ(1μ)/κ.) 现在,在一个不精确的模型中,我们可以将先验设置为由所有这些先验分布在所有可能的期望值上的集合组成,但另一个参数是固定的,以控制平均值范围内的精度。例如,我们可以使用一组先验:

P0{Beta(μ,κ)|0μ1}.

假设我们在数据中观察到积极指标。然后,使用 Bernoulli-beta 模型的更新规则,对应的后验集为:s=i=1nxi

Px={Beta(s+μ(κ1)n+κ1,n+κ)|0μ1}.

后验期望的可能值范围是:

sn+κ1E(θ|x)s+κ1n+κ1.

这里重要的是,即使我们从一个关于参数的预期值(先前的预期范围在所有可能的值上)“无信息”的模型开始,但我们最终还是得到了关于信息的后验推论参数的后验期望(它们现在的范围更窄)。作为,这个值范围被压缩到一个点,这是的真实值。nθ