平均值 SD 或中值 MAD 来总结高度偏斜的变量?±±±±

机器算法验证 意思是 偏度 中位数 报告 疯狂的
2022-03-02 20:29:01

我正在处理高度倾斜的数据,所以我使用中位数而不是平均值来总结集中趋势。我想测量离散度 虽然我经常看到人们报告平均值标准差±中值四分位数±来总结集中趋势,但报告中值中值绝对离散度 (MAD)± 是否可以?这种方法是否存在潜在问题?

我会发现这种方法比报告上下四分位数更紧凑和直观,尤其是在充满数字的大表格中。

3个回答

我不认为中位数 mad 通常是合适的。 ±

您可以轻松构建分布,其中 50% 的数据略低于中位数,50% 的数据分布远大于中位数 - 例如 (4.9,4.9,4.9,4.9,5,1000000,1000000,100000 ,1000000)。5 0.10 符号似乎表明周围有一些质量(中位数 + mad ~= 5.10),但情况并非总是如此,而且您不知道在 1000000 附近有一个很大的质量。±

四分位数/分位数以额外数字(4.9,5.0,1000000.0)为代价更好地了解分布。我怀疑偏度是第三个时刻完全是巧合,我似乎需要三个数字/维度来直观地可视化偏态分布。

也就是说,它本身并没有什么问题——我只是在这里争论直觉和可读性。如果您为自己或您的团队使用它,请发疯。但我认为这会让广大观众感到困惑。

使用 MAD 相当于假设基础分布是对称的(高于中值和低于中值的偏差被视为相同)。如果您的数据有偏差,这显然是错误的:它会导致您高估数据的真实可变性。

幸运的是,您可以选择 mad 的几个替代方案之一,它们同样健壮、几乎同样易于计算并且不假设对称性。

看看Rousseeuw 和 Croux 1992这些概念在这里得到了很好的解释实现这两个估计量是所谓的 U 统计类的成员,对此有一个完善的理论。

“本文研究了一种更准确的不对称指标。具体而言,提出了使用左右方差,并介绍了基于它们的不对称指标。几个例子证明了它的有用性。更准确地评估离散度的问题关于平均值的数据出现在所有非对称概率分布中。当总体分布是非对称的时,一组数据的平均值和方差(或标准差)不能提供数据分布的精确概念,尤其是形状和对称性。有人认为,平均值、建议的左方差(或左标准差)和右方差(或右标准差)更准确地描述了数据集。

关联