95% 置信区间之外的大量值是否意味着非正态性?

机器算法验证 置信区间
2022-04-18 21:19:18

我正在查看我的模型的错误,即预测输出和实际值之间的差异。找到平均值和标准差后,我发现许多值(有时超过 50%)超出了 95% 的置信区间。这是否意味着我的错误不是正态分布的?这甚至可能吗?95% CI 不应该意味着我的值的 95% 在这个范围内吗?

2个回答

这并不意味着没有问题,而是您将苹果与橙子进行比较。置信区间是针对平均值的,而不是针对总体的。对于大量数据,平均值的置信区间将非常窄,因为您可以非常准确地估计平均值 - 但几乎所有数据值都将超出该置信区间。

换句话说,置信限约为±2σ/n,而正常人群的 95% 限制约为±2σ, 不除以n.

这是一张显示@rvl 所说内容的图片。对于相当大的样本量,一小部分值在平均值的 95% 置信区间内。 资源

. 在此处输入图像描述