我应该对可信区间有“信心”吗?

机器算法验证 可能性 贝叶斯 置信区间 常客 可信区间
2022-04-09 00:24:34

预赛

首先,我知道贝叶斯/频率学派的争论在这一点上相当长,但我希望我的问题与我在问这个问题之前在这个网站上审查的其他问题有足够的不同。

以免其他人开始向我转发本网站上有关“什么是贝叶斯概率”或“置信区间与可信区间”的众多链接,让我说我不关心贝叶斯概率和频率概率之间的差异,据我所知。我想知道的是为什么我应该相信贝叶斯可信区间作为参数值的合理范围的可靠描述。

我的主要问题,然后是一些背景:

我们根据什么来判断贝叶斯可信区间的可靠性(或可信度)?

我问这个问题是因为可信区间存在一个我在置信区间中看不到的难题:我如何确定错误的“风险”?

置信区间的一个例子

95% 的置信区间被构造为在 95% 的样本中是正确的(即覆盖真实参数):95% 是适用于许多样本的过程的概率。然而,就像随机变量的实现不必接近其平均值一样,任何单独的 CI 原则上都不必将任何接近真实值的东西括起来。

但是......当我们进行推理时,我们会形成一个 CI,试图根据我们收集的数据显示参数值的合理范围。在频率论的解释中,我不能为实际区间分配任何概率,因为没有更多的随机性可以应用概率。

那么我为什么要关心这个特定的时间间隔......它告诉我关于被推断的参数值的信息是什么?我看到了对这个问题的两个主要反应:

  1. “没有什么!” 它要么覆盖要么不覆盖真正的参数,但仅此而已。
  2. “真值有 95% 的机会在这个区间内”....通常后面跟着“单个 CI 不可能有概率”的回答

但是,我认为我们大多数依赖置信区间的人在解释单个 CI 时实际上会使用第三种可能性:

“我不知道这个特定的 95% 置信区间是否包含真值,但该过程产生的区间只有 5% 的时间没有达到目标,所以我假设这个区间包含真值。鉴于这个假设,我仍然不知道区间中的哪个值是真值,所以我将区间解释为真值的“可能”值。”

这个(诚然冗长...... [与这篇文章不同;-)])解释具有许多不错的功能:

  • 它清楚地将概率陈述与“主观”或“可能性”评估区分开来。因此,我知道我的解释在 5% 的样本中是错误的(对于 95% 的置信区间)......但是......在其他 95% 中会很好(正如理查德·罗亚尔(Richard Royall)令人难忘地写道“有时证据是误导。”......跟随它所引导的数据有其自身的风险!)
  • 评估/验证我的信心有一个明确的基础......只需从已知分布中抽取大量样本并测试它是否像宣传的那样工作。

警告...

  • 一些置信区间有一个称为“辅助性”的属性......这意味着程序的整体置信度实际上是一个边际概率,在给定辅助统计值的情况下,我们正在边缘化程序的条件置信度(因此,辅助统计识别可能置信区间总体的“相关子集”,与程序的总体平均(即无条件)置信度相比,每个置信区间可能具有非常不同的置信度)。有一些方法可以在给定辅助统计量的情况下纠正区间,使其达到所需的置信度(查看“条件推理”和 Nancy Reid、Richard Cox 等人的作品)

现在,转到贝叶斯可信区间

贝叶斯估计(概率、区间)不必具有任何重复采样属性。这既是福也是祸。幸运的是,我们可以声称分配给区间的“概率”实际上是该区间的概率一个诅咒在于我们没有任何方法来校准我们的推理风险意识——“0.95”的贝叶斯概率不适用于任何有形或可验证的事物。然而,许多统计学家依赖于这些区间。那我错过了什么?这是我的困境:

  1. 如果我们坚持“95%”的概率不适用于重复试验的理论序列(或任何重复意义),那么“95%”只是一个使用与概率公理形式一致的系统计算的数字理论。
  2. 如果我们诉诸使用贝叶斯概率的技术记录,那么我们不是诉诸频率论标准吗?

现在,我没有任何带有贝叶斯公式来计算估计值的卡车……我认为它们是“规范化”或“稳定”小样本估计值的明智尝试。但是,在评估推理程序时,我还没有看到置信度概念的可行替代方案。这对我来说非常有意义,以至于我们相信一种几乎总是正确的方法。

请注意,如果我们假设 LLN 成立并且那里有一个真实的参数值,那么我们的贝叶斯可信区间与置信区间遵循相同的重言式……它们要么包含真实值,要么不包含真实值。没有合乎逻辑的方法。只是我们附加在间隔上的“风险”似乎发生了变化。

一方面,我信任 Confidence Intervals,就像信任知识渊博的顾问一样。大多数时候,它们是正确的,但有时它们是错误的。没有“辅助”信息(例如它们的准确性取决于所问问题的类型),我假设他们的答案是正确的,并接受我犯错误的(小)风险。这就是随机性的本质。

我不知道我怎么会对一个支持 95% 的贝叶斯概率是正确的顾问有同样的信任......

2个回答

如果您在先验分布中准确地描述了您对特定数量的信念,那么是的,您应该对更新后的信念有“信心”,由后验分布(以及由此构建的可信区间)表示,因为贝叶斯规则提供在看到数据后更新您的信念的适当方法。

上面的陈述是针对一个特定的实验,但更重要的是,一个特定的兴趣量。它没有说明一整套实验或数量会发生什么,也不应该,因为这个特定的数量是感兴趣的数量。它也没有说明真正的参数值在哪里,而是说明了您认为真正的参数值在哪里。因此,它根据您对先验的选择、您对可能性的选择以及您观察到的数据,准确地说明了您应该相信什么。

为了覆盖置信区间或可信区间,我们需要构建一个可重复的统计过程。上述过程是不可重复的,因为先前的构造是特定于感兴趣的特定数量的。但是,我们可以构造默认的贝叶斯程序,其先验被构造为满足某些属性。这些属性之一是概率匹配,并且基于概率匹配先验构建的可信区间在重复使用该先验时获得了适当的频率覆盖。

因此,如果覆盖给您“信心”,那么您可能应该只使用具有先验概率匹配的默认贝叶斯过程。

从您的陈述中可以看出,“我怎么能对任何事情有 95% 的信念(您要么相信某事是真实的,要么您不相信)”,您对统计数据可以告诉我们的信息非常有信心。从本质上讲,我(贝叶斯方法的支持者)询问对某事有多大的信心,并且有了新信息,我能够调整我的信念(调整我的想法)。对我来说,信念只是代表我对结合先前证据的全部存在的效果的确定程度,而从未考虑过“真相”。

例如,我的效果大小 d 为 0.2,CI 范围为 0.004-0.510。你怎么能用它来推导出一个二元真理?你的真相是什么?您的真实感是否基于假设的重采样,其中一个固定但未知的参数被假设的区间捕获,这些区间是从上述尚未实际发生的重采样假设构建的?为了使真理成为赋予我们的方式,你必须相信它是这样的。我相信这是不可能的。

仅基于此效应大小和区间,我会推断,尽管区间不跨越零,但可能非常接近零的值。然后,我会根据过去的证据选择一个值来评估可以被认为是重要的效应的后验概率(实际意义)。在这种情况下,我会选择 0.2(心理学中常见),这可能会导致效果的后验概率小于 0.2 为 50%,而效果的后验概率也会大于 0.2 的 50%。基于此信息,我将非常不确定效果的重要性,但也会认为效果的存在是可能的并且值得考虑。对我来说,这是基于效果大小和区间的适当推断,只能使用贝叶斯方法获得。

尽管我们希望统计编程语言能够为我们提供所有答案,但它做不到。我们实际上必须思考,并且根据我们的想法,我们形成信念。因此,我建议认真考虑统计推断的局限性,不要羞于对事实的真相有所确定/不确定。