Morey 等人 (2015) 认为置信区间具有误导性,并且存在与理解它们相关的多种偏差。其中,他们将精确谬误描述如下:
精度谬误
置信区间的宽度表示我们对参数的了解的精度。窄的置信区间显示精确的知识,而宽的置信误差显示不精确的知识。估计的精度和置信区间的大小之间没有必然的联系。看到这一点的一种方法是想象两名研究人员——一名高级研究员和一名博士生——正在分析来自一项实验作为对博士生有益的练习,高级研究员决定将参与者随机分成两组,人,这样他们每个人就可以分别分析一半的数据集。在随后的会议中,两人相互分享他们的学生平均值的置信区间。博士生的 CI 为,高级研究员的 CI 为。
高级研究人员指出,他们的结果大体上是一致的,并且他们可以使用他们各自的两个点估计的等权重平均值作为真实平均值的总体估计。
然而,博士生认为他们的两种方法不应该均匀加权:她指出她的 CI 是一半宽,并认为她的估计更精确,因此应该更重。她的顾问指出,这不可能是正确的,因为不均匀加权这两种方法的估计值将不同于分析完整数据集的估计值,后者必须是。博士生的错误是假设 CI 直接表示数据后的精度。
上面的例子似乎具有误导性。如果我们将一个样本随机分成两半,分成两个样本,那么我们会期望样本均值和标准误差都很接近。在这种情况下,使用加权平均值(例如通过逆误差加权)和使用简单算术平均值之间应该没有任何区别。但是,如果估计值不同并且其中一个样本的误差明显更大,这可能表明该样本存在“问题”。
显然,在上面的例子中,样本大小是相同的,因此通过取平均值来“连接”数据与取整个样本的平均值相同。问题是整个示例遵循定义不明确的逻辑,即先将样本分成几部分,然后再重新组合以进行最终估计。
该示例可以重新措辞以得出完全相反的结论:
研究人员和学生决定将他们的数据集分成两半并独立分析它们。之后,他们比较了他们的估计,发现他们计算的样本意味着他们有很大的不同,而且学生估计的标准误差要大得多。学生担心这可能表明他的估计精度存在问题,但研究人员暗示置信区间和精度之间没有联系,因此两个估计值同样值得信赖,他们可以发布其中任何一个,随机选择,作为他们的最终估计。
更正式地说,“标准”置信区间,如学生的,是基于错误的
其中是某个常数。在这种情况下,它们与精度直接相关,不是吗..?
所以我的问题是:
精确谬误真的是谬误吗?置信区间对精度有什么影响?
Morey, R., Hoekstra, R., Rouder, J., Lee, M., & Wagenmakers, E.-J. (2015 年)。对置信区间置信的谬误。心理公报与评论,1-21。https://learnbayes.org/papers/confidenceIntervalsFallacy/