我正在查看我的模型的错误,即预测输出和实际值之间的差异。找到平均值和标准差后,我发现许多值(有时超过 50%)超出了 95% 的置信区间。这是否意味着我的错误不是正态分布的?这甚至可能吗?95% CI 不应该意味着我的值的 95% 在这个范围内吗?
95% 置信区间之外的大量值是否意味着非正态性?
机器算法验证
置信区间
2022-04-18 21:19:18
2个回答
这并不意味着没有问题,而是您将苹果与橙子进行比较。置信区间是针对平均值的,而不是针对总体的。对于大量数据,平均值的置信区间将非常窄,因为您可以非常准确地估计平均值 - 但几乎所有数据值都将超出该置信区间。
换句话说,置信限约为,而正常人群的 95% 限制约为, 不除以.
这是一张显示@rvl 所说内容的图片。对于相当大的样本量,一小部分值在平均值的 95% 置信区间内。 资源
.
