机器算法验证 - 置信椭圆的真正含义 - 吾爱随笔录

置信椭圆的真正含义

机器算法验证置信区间椭圆

2022-02-06 11:12:42

阅读 95% 置信椭圆的真正含义时，我倾向于遇到两种解释：

包含 95% 数据的椭圆
不是上面的，而是解释数据方差的椭圆。我不确定我是否理解正确，但它们似乎意味着如果有一个新的数据点进来，新的方差有 95% 的可能性会留在椭圆中。

你能解释一下吗？

2个回答

实际上，这两种解释都不正确。

置信椭圆与未观察到的总体参数有关，例如双变量分布的真实总体均值。该均值的 95% 置信椭圆实际上是具有以下属性的算法：如果您要多次从基础分布中复制抽样，并且每次都计算一个置信椭圆，那么如此构造的 95% 的椭圆将包含基础分布意思是。（请注意，每个样本当然会产生不同的椭圆。）

因此，置信椭圆通常不会包含 95% 的观测值。事实上，随着观察次数的增加，平均值通常会越来越好，导致置信椭圆越来越小，而置信椭圆包含的实际数据比例也越来越小。（不幸的是，有些人计算出包含 95% 数据的最小椭圆，这让人联想到分位数，这本身就很好……但是接着将这个“分位数椭圆”称为“置信椭圆”，其中，如您所见，会导致混乱。）

基础总体的方差与置信椭圆有关。高方差意味着数据遍布各处，因此无法很好地估计均值，因此置信椭圆将大于方差较小的情况。

当然，我们也可以为我们可能希望估计的任何其他总体参数计算置信椭圆。或者我们可以查看椭圆以外的其他置信区域，特别是如果我们不知道估计的参数是（渐近地）正态分布的。

置信椭圆的一维模拟是置信区间，并且浏览此标签中以前的问题很有帮助。我们当前在这个标签中投票最高的问题特别好：为什么 95% 的 CI 并不意味着 95% 的机会包含平均值？那里的大部分讨论同样适用于一维置信区间的高维类似物。

这取决于这个概念适用的领域。上面所说的对于统计数据是正确的，但是当我们将统计数据应用于其他主题时，情况就有些不同了。例如，在生物力学中，我们使用术语置信椭圆（尽管它是否应该是预测椭圆存在争议）作为测量对象站在力平台上时压力位移中心的技术。然后，围绕两个轴（长轴和短轴）绘制的椭圆应该包含 95% 的数据点，这些数据点代表试验期间压力位移的中心。

其它你可能感兴趣的问题

上一篇为什么 Cox 比例风险模型中的 p 值通常高于逻辑回归中的 p 值？下一篇bagging的理论保证是什么