我们正在进行一项实验室测试,其中被测试材料“通过”的标准之一是:
任何单个样本与 10 个样本的平均值的偏差不得超过 3 个标准偏差
我一辈子都无法创建一组数据,其中 1 个样本超出 3 个标准偏差。我们正在处理的数据点是“质量损失百分比”,因此根据定义,它被限制为 0 到 1。
我开始认为可能不可能有一组数据未能通过此标准的测试。
我说得对吗:
异常值对标准差的影响如此之大,以至于当数据集的大小为 10 时,“mean+3*stdev 最大值”总是大于异常值本身。
我们正在进行一项实验室测试,其中被测试材料“通过”的标准之一是:
任何单个样本与 10 个样本的平均值的偏差不得超过 3 个标准偏差
我一辈子都无法创建一组数据,其中 1 个样本超出 3 个标准偏差。我们正在处理的数据点是“质量损失百分比”,因此根据定义,它被限制为 0 到 1。
我开始认为可能不可能有一组数据未能通过此标准的测试。
我说得对吗:
异常值对标准差的影响如此之大,以至于当数据集的大小为 10 时,“mean+3*stdev 最大值”总是大于异常值本身。
我相信你是对的。我认为证明的大致草图来自Cantelli 的引理(与切比雪夫的不等式有关)。
请注意,在我们的具体情况下,我们得到 如果我们想要一个严格的不等式,例如标准差,那么右侧严格小于 1/10。但是我们有 10 个观测值,所以每个观测值必须至少有 1/10 的概率;因此我们有一个矛盾。