方差/标准差与四分位距 (IQR)

机器算法验证 方差 变化性 四分位数
2022-03-26 13:46:19

方差和四分位距 (IQR) 都是可变性的度量

但是 IQR对异常值具有鲁棒性,而方差可能会受到单个观察值的巨大影响。

由于方差(或标准差)是一个更难理解的度量,我应该告诉我的学生什么是方差比 IQR 的优势?

2个回答

方差的主要用途是在推理统计中。

因此,方差和标准差对于理解 z-scores、t-scores 和 F-tests 是不可或缺的。

这意味着当您的数据呈正态分布时,标准差将具有特定的属性和解释。当您的数据不正常(偏斜、多模态、肥尾等)时,标准差不能用于经典推断,如置信区间、预测区间、t 检验等,也不能解释为与平均值的距离。

你可以说“任何与平均值相差 1.96 个标准差的观测值都在第 97.5 个百分位。” 如果您的数据是正态分布的。

低标准差表示这些值趋向于接近集合的平均值(也称为预期值),而高标准差表示这些值分布在更宽的范围内1标准差和均值通常用于对称分布,对于正态分布的变量,大约 70% 的观测值在均值的一个标准差范围内,大约 95% 的观测值在两个标准差范围内(68–95–99.7 规则)。对于非正态分布的变量,它遵循三西格玛规则

如下所示,我们可以发现箱线图在描述对称观察方面很弱。

在此处输入图像描述

由这段 R 代码生成(借自这个答案):

set.seed(1)
normal <- rnorm(10000)
a_vector <- c(-3, -2.65, rep((-2:2)*.674, 5), 2.65, 3)
boxplot(normal, a_vector)

我们可以看到两个总体的 IQR 相同,12我们可以通过均值和标准差看到两者的差异。

mean(normal); var(normal); mean(a_vector); var(a_vector)

-0.00653703946166382
1.02486558733286
-3.0626842058625e-17
1.95567142857143

从上面的案例我们可以看出,中位数和IQR不能反映的东西,可以通过均值和方差来明显的传达出来。

参考文献:
1. https://en.wikipedia.org/wiki/Standard_deviation