像变异系数这样的稳健(非参数)度量——IQR/中位数,还是替代?

机器算法验证 非参数 数理统计 标准差 描述性统计 正常化
2022-03-17 00:11:34

对于一组给定的数据,价差通常以标准差或 IQR(四分位间距)的形式计算。

虽然 astandard deviation是标准化的(z 分数等),因此可用于比较来自两个不同群体的分布,但 IQR 并非如此,因为来自两个不同群体的样本可能具有两个完全不同的尺度值,

 e.g. 
 Pop A:  100, 67, 89, 75, 120, ...
 Pop B:  19, 22, 43, 8, 12, ...

我所追求的是一种稳健的(非参数)度量,我可以用它来比较不同人群中的变化。

选择 1: IQR / Median——这类似于变异系数,即σμ.

选择2: Range / IQR

问题:对于比较人群之间的差异,哪种方法更有意义?如果是选择 1,那么选择 2 是否对任何事情/有意义的事情有用,或者它是一个根本有缺陷的衡量标准?

4个回答

重要的是要意识到最小值和最大值通常不是很好的统计数据(即,它们在样本之间波动很大,并且不遵循正态分布,例如,平均值可能是由于中心极限定理) . 因此,除了说明这个精确样本的范围之外,范围很少是一个好的选择。对于表示可变性的简单非参数统计,四分位间距要好得多。然而,虽然我看到了 IQR/中位数和变异系数之间的类比,但我认为这可能不是最好的选择。

您可能需要查看与中位数( MADM )的中位数绝对偏差。那是:

MADM=median(|ximedian(x)|)
我怀疑变异系数更好的非参数类比是 MADM/中位数,而不是 IQR/中位数。

这个问题意味着标准偏差(SD) 以某种方式归一化,因此可用于比较两个不同群体的变异性。不是这样。正如彼得和约翰所说,这种标准化是在计算变异系数(CV) 时完成的,它等于 SD/Mean。SD 与原始数据的单位相同。相反,CV 是一个无单位的比率。

您的选择 1(IQR/中位数)类似于 CV。与 CV 一样,只有当数据是比率数据时才有意义。这意味着零实际上是零。重量为零是没有重量。零长度不是长度。作为一个反例,以 C 或 F 为单位的温度没有意义,因为零度温度(C 或 F)并不意味着没有温度。简单地在使用 C 或 F 标度之间切换将为 CV 或 IQR/中位数的比率提供不同的值,这使得这两个比率都毫无意义。

我同意彼得和约翰的观点,即您的第二个想法(范围/IQR)对异常值不是很稳健,因此可能没有用。

如果您使用非参数来减少异常值的影响,那么“选择 1”就是您想要的。即使您使用它是因为偏斜也具有通常在尾部具有极值的副作用,这也可能是异常值。您的“选择 2”可能会受到异常值或任何极值的显着影响,而您的第一个等式的组成部分对它们相对稳健。

[这将取决于您选择的 IQR 类型(请参阅 R 对分位数的帮助)。]

我不喜欢计算像 CV 这样的度量,因为我几乎总是有随机变量的任意来源。关于稳健离散量度的选择,很难击败基尼平均差,这是两个观测值之间所有可能的绝对差值的平均值。有关高效计算,请参见例如 RrmsGiniMd函数。在正常情况下,基尼平均差为 0.98,与估计离散度的标准差一样有效。