预赛
首先,我知道贝叶斯/频率学派的争论在这一点上相当长,但我希望我的问题与我在问这个问题之前在这个网站上审查的其他问题有足够的不同。
以免其他人开始向我转发本网站上有关“什么是贝叶斯概率”或“置信区间与可信区间”的众多链接,让我说我不关心贝叶斯概率和频率概率之间的差异,据我所知。我想知道的是为什么我应该相信贝叶斯可信区间作为参数值的合理范围的可靠描述。
我的主要问题,然后是一些背景:
我们根据什么来判断贝叶斯可信区间的可靠性(或可信度)?
我问这个问题是因为可信区间存在一个我在置信区间中看不到的难题:我如何确定错误的“风险”?
置信区间的一个例子
95% 的置信区间被构造为在 95% 的样本中是正确的(即覆盖真实参数):95% 是适用于许多样本的过程的概率。然而,就像随机变量的实现不必接近其平均值一样,任何单独的 CI 原则上都不必将任何接近真实值的东西括起来。
但是......当我们进行推理时,我们会形成一个 CI,试图根据我们收集的数据显示参数值的合理范围。在频率论的解释中,我不能为实际区间分配任何概率,因为没有更多的随机性可以应用概率。
那么我为什么要关心这个特定的时间间隔......它告诉我关于被推断的参数值的信息是什么?我看到了对这个问题的两个主要反应:
- “没有什么!” 它要么覆盖要么不覆盖真正的参数,但仅此而已。
- “真值有 95% 的机会在这个区间内”....通常后面跟着“单个 CI 不可能有概率”的回答
但是,我认为我们大多数依赖置信区间的人在解释单个 CI 时实际上会使用第三种可能性:
“我不知道这个特定的 95% 置信区间是否包含真值,但该过程产生的区间只有 5% 的时间没有达到目标,所以我假设这个区间包含真值。鉴于这个假设,我仍然不知道区间中的哪个值是真值,所以我将区间解释为真值的“可能”值。”
这个(诚然冗长...... [与这篇文章不同;-)])解释具有许多不错的功能:
- 它清楚地将概率陈述与“主观”或“可能性”评估区分开来。因此,我知道我的解释在 5% 的样本中是错误的(对于 95% 的置信区间)......但是......在其他 95% 中会很好(正如理查德·罗亚尔(Richard Royall)令人难忘地写道“有时证据是误导。”......跟随它所引导的数据有其自身的风险!)
- 评估/验证我的信心有一个明确的基础......只需从已知分布中抽取大量样本并测试它是否像宣传的那样工作。
警告...
- 一些置信区间有一个称为“辅助性”的属性......这意味着程序的整体置信度实际上是一个边际概率,在给定辅助统计值的情况下,我们正在边缘化程序的条件置信度(因此,辅助统计识别可能置信区间总体的“相关子集”,与程序的总体平均(即无条件)置信度相比,每个置信区间可能具有非常不同的置信度)。有一些方法可以在给定辅助统计量的情况下纠正区间,使其达到所需的置信度(查看“条件推理”和 Nancy Reid、Richard Cox 等人的作品)
现在,转到贝叶斯可信区间
贝叶斯估计(概率、区间)不必具有任何重复采样属性。这既是福也是祸。幸运的是,我们可以声称分配给区间的“概率”实际上是该区间的概率。一个诅咒在于我们没有任何方法来校准我们的推理风险意识——“0.95”的贝叶斯概率不适用于任何有形或可验证的事物。然而,许多统计学家依赖于这些区间。那我错过了什么?这是我的困境:
- 如果我们坚持“95%”的概率不适用于重复试验的理论序列(或任何重复意义),那么“95%”只是一个使用与概率公理形式一致的系统计算的数字理论。
- 如果我们诉诸使用贝叶斯概率的技术记录,那么我们不是诉诸频率论标准吗?
现在,我没有任何带有贝叶斯公式来计算估计值的卡车……我认为它们是“规范化”或“稳定”小样本估计值的明智尝试。但是,在评估推理程序时,我还没有看到置信度概念的可行替代方案。这对我来说非常有意义,以至于我们相信一种几乎总是正确的方法。
请注意,如果我们假设 LLN 成立并且那里有一个真实的参数值,那么我们的贝叶斯可信区间与置信区间遵循相同的重言式……它们要么包含真实值,要么不包含真实值。没有合乎逻辑的方法。只是我们附加在间隔上的“风险”似乎发生了变化。
一方面,我信任 Confidence Intervals,就像信任知识渊博的顾问一样。大多数时候,它们是正确的,但有时它们是错误的。没有“辅助”信息(例如它们的准确性取决于所问问题的类型),我假设他们的答案是正确的,并接受我犯错误的(小)风险。这就是随机性的本质。
我不知道我怎么会对一个支持 95% 的贝叶斯概率是正确的顾问有同样的信任......