对贝叶斯先验的深层含义及其对后验的影响的直觉

机器算法验证 贝叶斯 事先的 哲学的
2022-04-05 07:58:44

在估计后验分布时,贝叶斯依赖于先验分布的思想。在许多示例中,我看到这是相当任意设置的,即~N(0,1)。

很明显,后验与先验是一体的,然而,它是任意的这一事实似乎并不令人满意。此外,先验以定性的方式影响后验。从“加权”平均值的意义上看,这更不能令人满意。

我的两个具体问题是:

当先验看起来是武断的,或者在稍后阶段被挥手或计算掉时,拥有先验的价值是什么?如果这种对先验注意力不屑一顾的描述是正确的,并且由于先验对于贝叶斯统计是如此不可或缺,那么这是否会破坏贝叶斯统计的实践或理论?

相关问题:先验对产生的后验没有相当大的影响吗?(如果他们不这样做,则适用上述问题)。如果他们这样做了,而且显然没有给他们太多考虑,这不只是将贝叶斯统计的“哲学”和“内容”推入了黑匣子吗?

我坦率地承认这个问题似乎不对(或者让我感到尴尬)。我对贝叶斯统计的教育哪里出了问题?

3个回答

你的说法与杰恩斯相呼应。他说

当我们在足够基本的层面上看待这些问题并意识到在我们遇到适定问题之前必须非常小心地指定先验信息时,很明显,事实上,(3.51) 和 (3.51) 和(4.3); 分配抽样概率或先验概率需要完全相同的原则,一个人的抽样概率就是另一个人的先验概率。

第三章中的方程是关于基本抽样理论的,第四章是关于基本假设检验的。

从 Cox 公理、de Finetti 公理和 Savage 公理创建贝叶斯理论有三种主要方法。Cox 建立在逻辑之上,de Finetti 建立在赌博之上,而 Savage 则建立在偏好之上。

在所有这三种情况下,您都不会遇到任意计算的适定问题。如果您将概率陈述视为关于逻辑断言的陈述,那么为了得到正确的答案,必须包括逻辑论证的所有部分。同样,当一个人赌博时,故意忽略有关您将赌博的信息是疯狂的。最后,它要求理性对偏好忽略知识。

我相信这个错误来自对概率的误解。他们不是。长期运行频率不会从贝叶斯方法中得出。它们可能具有良好的频率特性,但这是偶然的。

现在,这确实询问是否存在应该忽略先前信息的任何情况,答案是“是的”。只要不引入相互矛盾的信息或破坏断言就可以存在。考虑一个高维模型的情况,其计算成本过高,可以通过近似解来近似。当强先验使工作无法完成时,削弱先验可以提供解决方案。同样,考虑一个低维模型,其中时间至关重要,并且确定完整的先验将由于时间限制而导致灾难性损失。这是带有炸弹情景的恐怖分子。在这种情况下,使用少于可用信息的信息是合理的。

懒惰或无知不是忽视先验的借口。

这就是我阅读您的问题的方式-“为什么先验与计算的后验有关系时会给出任意值?”

注意:我来自物理背景——如果你认为我使用了一些错误的术语,请告诉我。

我将从贝叶斯统计的角度提出一系列原子问题并根据我的理解回答它们。

  1. 符号和术语:我认为一个系统成对地因果连接(考虑一个有向图)。数量分为查询、隐藏和证据。后验概率由 ) 类中的变量是边际的。 贝叶斯定理的陈述是P(Q|E)=HP(Q|E,H)P(H)H

    P(Q|E)posterior distribution of Q given E=P(E|Q)likelihood of E given Q×P(Q)prior distribution of QQP(E|Q)P(Q)
  2. 先验对后验计算重要吗?:给定足够的证据/数据和足够简单的事件空间,不。但是在较少的证据/数据或较少的迭代下,适当的先验选择可以导致“正确的”后验。
  3. 在实践中是否忽略了先验分布?:给定足够的数据,它并不重要,因为您可以将宝贵的时间用于其他事情。但是,从实验中获得先验分布可以在获得后验后进行更好的完整性检查(测试或调试)。
  4. 什么时候先验分布很重要?
    1. 可用数据较少
    2. 多个相似的竞争假设(与拥有更大的事件空间相关)
    3. 对杰恩(或者我主观上认为杰恩对先前的解释——我还没有很多时间来吸收它)的方法来说,哲学上很重要。
  5. 什么对统计力学有意义?在不参考先验的情况下寻求离散事件空间的解释是可以的。但是面对多维系统,大多数问题都以阶乘为尺度,在我看来,在给定的约束条件下最大化熵是一种非常实用的方法。但是,作为初学者,我没有足够的时间来了解这是否是唯一/最好的选择。

我可能的特殊观点如下。如果我们对参数有一个精确的、完全已知的、可能基于信念的先验分布,并且我们知道真实的似然函数,那么贝叶斯范式为我们提供了更新该先验的最佳方法,并有可能获得后验。在现实生活中,我们既没有先验也没有可能性,除非在我看来是极少数情况,所以我们应用了一个直观的“函数空间中的平滑性”论证,如下所示。只要我们用于计算的先验接近于我们拥有的真实的、不可观察的先验,并且我们用于计算的似然函数接近于真实的、通常是不可知的似然函数,应用贝叶斯范式就会得到一个后验,即接近真实的,无法计算的后验。

那么,这就是尝试将您的先验信息表示为概率分布的价值——它允许您使用最佳更新算法,从而减少您在查看数据后形成的信念中的错误。

作为一个相当冗长的旁注,这意味着贝叶斯鲁棒性是我们整个过程(分配先验和似然函数,执行更新计算)的一个理想特征,我们对我们构建/假设的先验和可能性的准确性的信心更是如此功能退化。到了某个时候,我们对自己对其中一个、另一个或两者形成任何合理近似的能力将失去信心,以至于我们还不如放弃贝叶斯范式而做其他事情。或者,相对于收益而言,建立和执行贝叶斯范式的成本可能是如此之大,以至于我们再次做其他事情会更好,例如运行经典 t 检验,观察 t 统计量19.4,并拒绝我们为了让生活更简单而创建的零假设。

现在,关于先验的影响——这取决于先验、似然函数和数据。很容易找到数据压倒先验的各种现实情况,在这种情况下,即使是非常不同的先验也会导致非常相似的后验。在这些情况下,担心可能性比担心先验要重要得多。另一方面,在获取数据的成本或时间非常密集的情况下,可能必须从相关专家那里仔细提取先验信息,以便尽可能地充分利用它。(在我之前的工作中就是这种情况,我对太阳能电池板和跟踪器进行可靠性分析,除其他外 - 测试一个大型的,