机器算法验证 - 如果有 10 个观测值限制在 0 和 1 之间，那么任何观测值与平均值相差 3 个 SD 以上吗？ - 吾爱随笔录

机器算法验证标准差异常值

2022-04-18 11:24:57

我们正在进行一项实验室测试，其中被测试材料“通过”的标准之一是：

任何单个样本与 10 个样本的平均值的偏差不得超过 3 个标准偏差

我一辈子都无法创建一组数据，其中 1 个样本超出 3 个标准偏差。我们正在处理的数据点是“质量损失百分比”，因此根据定义，它被限制为 0 到 1。

我开始认为可能不可能有一组数据未能通过此标准的测试。

我说得对吗：

异常值对标准差的影响如此之大，以至于当数据集的大小为 10 时，“mean+3*stdev 最大值”总是大于异常值本身。

1个回答

我相信你是对的。我认为证明的大致草图来自Cantelli 的引理（与切比雪夫的不等式有关）。

请注意，在我们的具体情况下，我们得到如果我们想要一个严格的不等式，例如标准差，那么右侧严格小于 1/10。但是我们有 10 个观测值，所以每个观测值必须至少有 1/10 的概率；因此我们有一个矛盾。

P ((X - E [X]) / σ \geq k) \leq 1 / (1 + k^{2}) = 1 / 10 for k=3 in our case

$P((X-E[X])/\sigma \geq k) \leq 1/(1+k^2)=1/10 \qquad\text{for k=3 in our case}$

k = 3 + ϵ

$k=3+\epsilon$

ϵ > 0

$\epsilon>0$

其它你可能感兴趣的问题