机器算法验证 - 为什么中位数的 95% CI 应该是± 1.57 *我Q R /ñ--√±1.57∗IQR/N? - 吾爱随笔录

为什么中位数的 95% CI 应该是± 1.57 *我Q R /ñ--√±1.57∗IQR/N?

机器算法验证置信区间中位数箱形图四分位数

2022-03-13 05:55:51

在各种来源（参见例如此处）中，给出了中位数置信区间的以下公式（特别是为了在盒须图上绘制缺口）：

95 % C I_{m e d i a n} = M e d i a n \pm \frac{1.57 \times I Q R}{\sqrt{N}}

$95\%\ CI_{\rm median} = {\rm Median} \pm \frac{1.57\times IQR}{\sqrt{N}}$

魔法常数让我抓狂，我不知道它是如何获得的。各种近似值（例如，假设我们的分布是高斯分布并且很大）没有给出任何线索——我得到了不同的常数值。 $1.57$ $N$

1个回答

这很容易。如果我们查看引入缺口盒须图的原始论文（Robert McGill、John W. Tukey 和 Wayne A. Larsen. Variations of Box Plots, The American Statistician, Vol. 32, No. 1 (Feb., 1978), pp. 12-16 ; 幸运的是，它在 JSTOR 上)，我们发现第 7 节，该公式通过以下方式得到证明：

如果需要一个表示每个中位数的 95% 置信区间的缺口，将使用 C=1.96。[这里的 C 是不同的常数，与我们的相关，但确切的关系并不重要，稍后将清楚 - IS]然而，由于需要一种“间隙规”形式，表明在 95% 水平上存在显着差异，这没有做。可以证明，只有当两组的标准差相差很大时，C = 1.96 才合适。如果它们几乎相等，C = 1.386 将是合适的值，1.96 导致测试过于严格（远远超过 99%）。 这些限制之间的值，C = 1.7，根据经验选择为优选的。 因此，使用的缺口计算为 $M \pm 1.7(1.25R/1.35 \sqrt{N})$ 。

重点是我的。请注意，这是您的幻数。 $1.7\times 1.25/1.35=1.57$

因此，简短的回答是：它不是中值 CI 的通用公式，而是用于可视化的特定工具，并且根据经验选择常数以实现特定目标。

没有魔法。

对不起。

其它你可能感兴趣的问题

上一篇为什么 Daniel Wilks (2011) 说主成分回归“会有偏差”？下一篇使用二次规划优化支持向量机