我试图弄清楚如果您将基于中值和 MAD 的 Hampel 异常值检测技术应用于倾斜的数据会发生什么。显然,Hampel 方法相对于 z 分数的优势在于它受异常值本身的影响要小得多。但是,一些论文和网站说,当数据分布偏斜时,不应应用此方法,因此当数据不是正态分布时。但是,我没有找到任何关于如果将这种方法应用于倾斜数据会发生什么的文献。它根本没有检测到任何异常值吗?还是它检测到误报?我在这个论坛上发现了几个关于是否使用 z 分数或 Hampel 方法的问题,即使数据是倾斜的,但没有人回答 Hampel 方法在应用于倾斜数据时的结果是什么。
我在这个论坛上找到的最接近的评论如下:
“使用 MAD 相当于假设基础分布是对称的(高于中位数和低于中位数的偏差被视为同等)。如果您的数据有偏差,这显然是错误的:它会导致您高估数据的真实可变性。 " 平均值 SD 或中值 MAD 来总结高度偏斜的变量?
它说“它会导致您高估数据的真实可变性”,但这实际上意味着什么?是否会导致识别出过多或过少的异常值?
此外,与 z 分数相比,任何人都可以看到将这种技术应用于小样本研究的问题吗?
任何人都可以帮助阐明这一点吗?