如果有 10 个观测值限制在 0 和 1 之间,那么任何观测值与平均值相差 3 个 SD 以上吗?

机器算法验证 标准差 异常值
2022-04-18 11:24:57

我们正在进行一项实验室测试,其中被测试材料“通过”的标准之一是:

任何单个样本与 10 个样本的平均值的偏差不得超过 3 个标准偏差

我一辈子都无法创建一组数据,其中 1 个样本超出 3 个标准偏差。我们正在处理的数据点是“质量损失百分比”,因此根据定义,它被限制为 0 到 1。

我开始认为可能不可能有一组数据未能通过此标准的测试。

我说得对吗:

异常值对标准差的影响如此之大,以至于当数据集的大小为 10 时,“mean+3*stdev 最大值”总是大于异常值本身。

1个回答

我相信你是对的。我认为证明的大致草图来自Cantelli 的引理(与切比雪夫的不等式有关)。

请注意,在我们的具体情况下,我们得到 如果我们想要一个严格的不等式,例如标准差,那么右侧严格小于 1/10。但是我们有 10 个观测值,所以每个观测值必须至少有 1/10 的概率;因此我们有一个矛盾。

P((XE[X])/σk)1/(1+k2)=1/10for k=3 in our case
k=3+ϵϵ>0