置信椭圆的真正含义

机器算法验证 置信区间 椭圆
2022-02-06 11:12:42

阅读 95% 置信椭圆的真正含义时,我倾向于遇到两种解释:

  1. 包含 95% 数据的椭圆
  2. 不是上面的,而是解释数据方差的椭圆。我不确定我是否理解正确,但它们似乎意味着如果有一个新的数据点进来,新的方差有 95% 的可能性会留在椭圆中。

你能解释一下吗?

2个回答

实际上,这两种解释都不正确。

置信椭圆与未观察到的总体参数有关,例如双变量分布的真实总体均值。该均值的 95% 置信椭圆实际上是具有以下属性的算法:如果您要多次从基础分布中复制抽样,并且每次都计算一个置信椭圆,那么如此构造的 95% 的椭圆将包含基础分布意思是。(请注意,每个样本当然会产生不同的椭圆。)

因此,置信椭圆通常不会包含 95% 的观测值。事实上,随着观察次数的增加,平均值通常会越来越好,导致置信椭圆越来越小,而置信椭圆包含的实际数据比例也越来越小。(不幸的是,有些人计算出包含 95% 数据的最小椭圆,这让人联想到分位数,这本身就很好……但是接着将这个“分位数椭圆”称为“置信椭圆”,其中,如您所见,会导致混乱。)

基础总体的方差与置信椭圆有关。高方差意味着数据遍布各处,因此无法很好地估计均值,因此置信椭圆将大于方差较小的情况。

当然,我们也可以为我们可能希望估计的任何其他总体参数计算置信椭圆。或者我们可以查看椭圆以外的其他置信区域,特别是如果我们不知道估计的参数是(渐近地)正态分布的。

置信椭圆的一维模拟是,并且浏览此标签中以前的问题很有帮助。我们当前在这个标签中投票最高的问题特别好:为什么 95% 的 CI 并不意味着 95% 的机会包含平均值?那里的大部分讨论同样适用于一维置信区间的高维类似物。

这取决于这个概念适用的领域。上面所说的对于统计数据是正确的,但是当我们将统计数据应用于其他主题时,情况就有些不同了。例如,在生物力学中,我们使用术语置信椭圆(尽管它是否应该是预测椭圆存在争议)作为测量对象站在力平台上时压力位移中心的技术。然后,围绕两个轴(长轴和短轴)绘制的椭圆应该包含 95% 的数据点,这些数据点代表试验期间压力位移的中心。