无信息先验理论的历史

机器算法验证 贝叶斯 参考 事先的 历史 无信息先验
2022-01-20 10:08:23

我正在为贝叶斯统计课程(经济学硕士)写一篇关于非信息先验的简短理论文章,我试图了解哪些是该理论发展的步骤。

到目前为止,我的时间线主要分为三个步骤:拉普拉斯无差异原理(1812)、非不变先验(Jeffreys(1946))、贝尔纳多参考先验(1979)。

从我的文献回顾中,我了解到无差异原理(拉普拉斯)是第一个用于表示缺乏先验信息的工具,但由于缺少不变性要求,导致它被放弃,直到 40 年代杰弗里斯介绍了他的方法,该方法具有期望的不变性。由于在 70 年代不慎使用不恰当的先验而导致的边缘化悖论的出现促使贝尔纳多详细阐述了他的参考先验理论来处理这个问题。

阅读文献,每位作者都引用了不同的贡献:Jaynes 的最大熵、Box 和 Tiao 的数据翻译似然、Zellner、...

在您看来,我缺少哪些关键步骤?

编辑:如果有人需要,我会添加我的(主要)参考:

1)通过形式规则选择先验,Kass,Wasserman

2)非信息性先验目录,Yang, Berger

3)非信息性贝叶斯先验解释和构造和应用问题

编辑 2:抱歉延迟了 2 年,但在这里你可以在这里找到我的文章

3个回答

你似乎缺少的是早期的历史。您可以查看 Fienberg (2006) 的论文何时贝叶斯推理成为“贝叶斯”?. 首先,他注意到 Thomas Bayes 是第一个建议使用统一先验的人:

在当前的统计语言中,贝叶斯的论文介绍了二项式参数的均匀先验分布,θ,与“台球桌”类比推理,并利用二项式随机变量的边际分布形式,而不是像许多其他人所声称的那样根据“不足的理由”原则。

皮埃尔西蒙拉普拉斯是下一个讨论它的人:

拉普拉斯还比贝叶斯更清楚地阐明了他关于选择均匀先验分布的论点,认为参数的后验分布θ应该与我们现在所说的数据的可能性成正比,即

f(θx1,x2,,xn)f(x1,x2,,xnθ)

我们现在明白,这意味着先验分布 θ是统一的,虽然一般来说,当然,先验可能不存在。

此外,Carl Friedrich Gauss 还提到了使用无信息先验,正如 David 和 Edwards (2001) 在他们的著作Annotated Readings in the History of Statistics 中所指出的那样:

Gauss 使用一个特殊的贝叶斯类型论证来证明h与可能性成正比(用现代术语):

f(h|x)f(x|h)

他假设的地方h均匀分布在[0,). 高斯既没有提到贝叶斯也没有提到拉普拉斯,尽管后者自拉普拉斯(1774)以来就已经普及了这种方法。

正如 Fienberg (2006) 所指出的,“逆概率”(以及随后使用统一先验)在 19 世纪之交很流行

[...] 因此,回想起来,将逆概率视为世纪之交伟大的英国统计学家(如御剑和皮尔逊)的选择方法也就不足为奇了。例如,Edgeworth (49) 给出了我们现在所知的 Student 的最早推导之一t-分布,均值的后验分布μ给定均匀先验分布的正态分布μh=σ1[...]

Stigler (1986) 在他的著作《统计学的历史:1900 年前不确定性的测量》中也回顾了贝叶斯方法的早期历史

在您的简短评论中,您似乎也没有提到 Ronald Aylmer Fisher(在 Fienberg,2006 之后再次引用):

费舍尔从逆向方法转向他自己的推理方法,他称之为“可能性”,他声称这个概念与概率不同。但费舍尔在这方面进展缓慢。Stigler (164) 指出,在一份可追溯到 1916 年的未发表手稿中,Fisher 没有用一个平坦的先验区分似然性和逆概率,尽管当他后来做出这种区分时,他声称此时已经理解它。

Jaynes (1986) 提供了他自己的简短评论论文贝叶斯方法:一般背景。您可以查看的介绍性教程,但它不关注无信息的先验。此外,正如AdamO所指出的,您绝对应该阅读Stigler(2007 年)的 The Epic Story of Maximum Likelihood

还值得一提的是,没有“无信息先验”之类的东西,因此许多作者更喜欢谈论“模糊先验”“每周信息先验”

Kass 和 Wasserman (1996) 在通过形式规则选择先验分布中提供了理论评论,他们更详细地介绍了选择先验,并扩展了对无信息先验的使用的讨论。

一些关于非信息先验(非信息先验)缺陷的评论可能是一个好主意,因为对这些缺陷的调查有助于历史上非信息先验概念的发展。

您可能想要添加一些关于采用非信息性先验的缺点/缺陷的评论。在众多批评中,我指出了两个。

(1) 通常采用非信息性先验存在一致性问题,特别是当模型分布具有多模态行为时。

这个问题不是非信息性先验所独有的,而是由许多其他贝叶斯程序所共有,正如以下论文及其讨论所指出的那样。

Diaconis、Persi 和大卫·弗里德曼。“关于贝叶斯估计的一致性。” 统计年鉴(1986 年):1-26。

如今,非信息性先验不再是研究重点。似乎对非参数设置中更灵活的先验选择更感兴趣。例子是非参数贝叶斯过程中的高斯过程先验或像狄利克雷先验混合的灵活模型,如

Antoniak, Charles E. “Dirichlet 过程的混合与贝叶斯非参数问题的应用”。统计年鉴(1974):1152-1174。

但同样,这样的先验也有其自身的一致性问题。

(2) 大多数所谓的“非信息先验”没有明确定义。

这可能是在开发过程中与非信息先验相关的最明显的问题。

一个例子是,将非信息性先验的极限定义为一系列适当先验的极限将导致边缘化悖论。正如您所提到的,Bernardo 的参考先验也存在 Berger 从未证明其正式定义独立于其构造/分区的问题。请参阅中的讨论

Berger、James O.、José M. Bernardo 和 Dongchu Sun。“参考先验的正式定义。” 统计年鉴(2009 年):905-938。

关于杰弗里斯先验的一个最佳定义是明确定义的,即它被选为先验,使得它在配备费希尔信息度量的黎曼流形上的某些平行平移下是不变的,但即使这样也不能解决第一个问题。

您也可能想阅读我关于边缘化悖论的解释

我会在评论中发布,但我想我还没有声誉。唯一缺少的东西,不在已经标记的评论中,是我试图寻找但没有找到其起源的非信息性先验的特殊情况。它可能先于 Jeffreys 的论文。

对于正态分布,我已经看到 Cauchy 分布用作具有正态似然的数据的非信息性先验。原因是柯西分布的精度为零,其中精度是一除以方差。它创造了一组相当奇特的矛盾概念。

柯西的公式是

1πΓΓ2+(xμ)2.

根据您定义积分的方式,要么没有定义方差,要么中位数趋于无穷大,这意味着精度为零。在此处不适用的共轭更新中,您添加了加权精度。我认为这就是为什么形成具有完全不精确密度的适当先验的想法的原因。它也等价于一个自由度的Student's t,它也可以是源。

这是一个奇怪的想法,因为柯西分布有一个明确的位置中心和四分位间距,即2Γ.

对柯西分布的两个最早的参考是似然函数。泊松写给拉普拉斯的信中的第一个,作为中心极限定理的一个例外。第二次是在 1851 年的期刊文章中,Bienayme 和 Cauchy 就普通最小二乘法的有效性展开了一场争论。

我发现它在 1980 年代之前用作非信息性的参考,但我找不到第一篇文章或书籍。我也没有找到证明它是非信息性的。我确实找到了杰弗里斯 1961 年关于概率论的书的引用,但我从未通过馆际互借请求这本书。

它可能只是信息量很小。99.99% 的最高密度区域为 1272 个半四分位数范围。

我希望它有所帮助。这是一个奇怪的特殊情况,但您会在许多回归论文中看到它。它通过成为适当的先验来满足贝叶斯动作的要求,同时对位置和规模的影响最小。