为什么这些陈述不能从逻辑上遵循 95% CI 的平均值?

机器算法验证 假设检验 置信区间
2022-01-25 09:42:57

我一直在阅读 Hoekstra 等人 2014 年从Wagenmakers 网站下载的关于“置信区间的稳健误解”的论文。

在倒数第二页上出现以下图像。

测验

根据作者的说法,False 是所有这些陈述的正确答案。我不太确定为什么这些陈述是错误的,据我所知,本文的其余部分并没有试图解释这一点。

我认为 1-2 和 4 是不正确的,因为当真实均值具有未知的确定值时,它们断言了真实均值的可能值。这是一个令人信服的区别吗?

关于 3,我知道这并不是要断言零假设不正确的可能性,尽管我不太确定原因。

同样,6 不可能是真的,因为它意味着真实的平均值正在从一个实验到另一个实验发生变化。

我真的完全不明白的是5。为什么那个是错的?如果我有一个 95% 的时间产生包含真实均值的 CI 的过程,为什么我不能说我有 95% 的置信度,总体值在 0.1 和 0.4 之间?是不是因为我们可能有一些关于我们刚刚采集的样本的特殊信息,让我们认为它可能是不包含真实平均值的 5% 之一?例如,0.13 包含在置信区间中,出于某种原因,在某些特定研究背景下,0.13 不被认为是一个合理的值,例如因为该值会与以前的理论相冲突。

无论如何,在这种情况下,信心意味着什么?

4个回答

问题(5)的真正含义取决于对“信心”的某种未公开的解释。我仔细搜索了这篇论文,没有发现任何试图定义“信心”或在这种情况下可能意味着什么的尝试。该论文对其对问题(5)的回答的解释是

“...... [它] 提到了 CI 的边界,而...... CI 只能用于评估程序,而不是特定的时间间隔。”

这既似是而非又具有误导性。首先,如果您无法评估程序的结果,那么程序首先有什么好处?其次,问题中的陈述不是关于程序,而是关于读者对其结果的“信心”

作者为自己辩护:

“在继续之前,重要的是要回忆一下 CI 的正确定义。CI 是围绕参数估计构建的数值区间。但是,这样的区间并不直接表示参数的属性;相反,它表示程序的一个属性,这是频率论技术的典型特征。”

他们的偏见出现在最后一句话中:“频繁的技巧”(写出来,也许是含蓄的​​冷笑)。尽管这种描述是正确的,但它严重不完整。 它没有注意到置信区间也是实验方法的属性(如何获得和测量样本),更重要的是,是自然本身的属性。 是任何人都会对其价值感兴趣的唯一原因。

我最近有幸阅读了 Edward Batschelet 的生物学循环统计(学术出版社,1981 年)。Batschelet 以一种针对工作科学家的风格清晰而中肯地写作。以下是他关于置信区间的说法:

在没有迹象表明偶然波动引起的偏差的情况下对参数的估计几乎没有科学价值。......

“虽然要估计的参数是一个固定数字,但置信限由样本决定。它们是统计数据,因此取决于机会波动。从同一人群中抽取的不同样本会导致不同的置信区间。”

[重点在原文中,第 84-85 页。]

请注意重点的不同:虽然有问题的论文侧重于程序,但 Batschelet 侧重于样本,特别是它可以揭示参数的内容以及“机会波动”会影响多少信息。我发现这种毫不掩饰的实用、科学的方法更具建设性、启发性,并且——最终——有用。

因此,比本文提供的更全面的置信区间表征必须进行如下操作:

CI 是围绕参数估计构建的数值区间。任何同意 CI 构造背后的假设的人都有理由说他们确信参数位于区间内:这就是“自信”的含义。 这个含义与信心的传统非技术含义大体一致,因为在实验的许多重复(无论它们是否实际发生)下,CI 虽然会有所不同,但预计大多数时间都包含参数。

在这种更全面、更传统、更建设性的“信心”意义上,问题 (5) 的答案是正确的。

问题 1-2、4:在频率分析中,真实均值不是随机变量,因此没有定义这些概率,而在贝叶斯分析中,概率取决于先验。

问题 3:例如,考虑一个我们肯定知道仍然有可能得到这些结果的情况,但是说零假设“不太可能”为真是不合理的。如果零假设为真,我们获得的数据不太可能发生,但这并不意味着零假设不太可能为真。

问题 5:这有点可疑,因为这取决于“我们可以有信心”的定义。如果我们将陈述定义为从 p % 置信区间推断的事物,则根据定义,该陈述是正确的。典型的亲贝叶斯论点指出,人们倾向于将这些陈述直观地解释为“概率为 p %”,这将是错误的(比较 1-2,4 的答案)。

问题6:您的解释“这意味着真实的平均值在实验之间发生变化”是完全正确的。

这篇文章最近在 Andrew Gelman 的博客 ( http://andrewgelman.com/2014/03/15/problematic-interpretations-confidence-intervals/ ) 中进行了讨论。例如,关于对问题 5 中陈述的解释的问题在评论中进行了讨论。

如果没有任何正式定义“95% 的自信”意味着什么,那么将 #5 标记为真或假有什么理由?外行人无疑会将其误解为 95% 的概率均值在该区间内的同义词:但有些人确实在使用区间生成方法的意义上使用它,其区间包含 95% 的时间真实均值,正是为了避免谈论未知参数的概率分布;这似乎是术语的自然延伸。

前面陈述(#4)的类似结构可能会鼓励受访者尝试区分“我们可以有 95% 的信心”和“有 95% 的可能性”,即使他们之前没有接受过这个想法。我曾预计这种技巧会导致 #5 的同意比例最高——查看论文,我发现我错了,但注意到至少 80% 的人阅读了荷兰语版本的问卷,这可能会引发关于英文翻译的针对性。

这是置信区间的定义,来自 BS Everitt 的统计词典

“从样本观察中计算得出的一系列值,被认为具有一定的概率包含真实的参数值。例如,95% 的 CI 意味着估计过程一次又一次地重复,然后是 95%的计算间隔将包含真实的参数值。请注意,所述概率水平是指间隔的属性,而不是参数本身,它不被视为随机变量“

一个非常常见的误解是将置信区间的含义与可信区间(又名“贝叶斯置信区间”)的含义相混淆,它确实做出了与问题中类似的陈述。

我听说置信区间通常类似于源自无信息先验的可信区间,但这是轶事告诉我的(尽管是我非常尊重的一个人),我没有细节或引用。