偏斜数据的中位数 + MAD

机器算法验证 异常值 中位数 偏度 疯狂的
2022-04-02 02:07:27

我试图弄清楚如果您将基于中值和 MAD 的 Hampel 异常值检测技术应用于倾斜的数据会发生什么。显然,Hampel 方法相对于 z 分数的优势在于它受异常值本身的影响要小得多。但是,一些论文和网站说,当数据分布偏斜时,不应应用此方法,因此当数据不是正态分布时。但是,我没有找到任何关于如果将这种方法应用于倾斜数据会发生什么的文献。它根本没有检测到任何异常值吗?还是它检测到误报?我在这个论坛上发现了几个关于是否使用 z 分数或 Hampel 方法的问题,即使数据是倾斜的,但没有人回答 Hampel 方法在应用于倾斜数据时的结果是什么。

我在这个论坛上找到的最接近的评论如下:

“使用 MAD 相当于假设基础分布是对称的(高于中位数和低于中位数的偏差被视为同等)。如果您的数据有偏差,这显然是错误的:它会导致您高估数据的真实可变性。 " 平均值 SD 或中值 MAD 来总结高度偏斜的变量?±±

它说“它会导致您高估数据的真实可变性”,但这实际上意味着什么?是否会导致识别出过多或过少的异常值?

此外,与 z 分数相比,任何人都可以看到将这种技术应用于小样本研究的问题吗?

任何人都可以帮助阐明这一点吗?

2个回答

如果您的样本中未受污染的数据是从不对称分布中提取的,并且您用来确定拒绝区域宽度的尺度度量假设您的数据的大部分是对称的,那么这些拒绝区域将大于他们需要的成为。举例来说,如果数据的分布确实是右偏斜的。这将导致您

  • 拒绝来自右尾的真实观察作为异常值。
  • 未能从左尾检测异常值。

总体而言,综合效果是您(不恰当地)清理的数据集看起来比实际更对称。

此处的替代方法是使用异常值检测规则,分别处理样本的左右尾部。当然,与 mad 和 medium 相比,这也会使您的程序的故障点减半(这是不可避免的,因为半个样本的污染率可能是整个样本的污染率的两倍)。

在我看来,解决这个问题的最佳方法是使用调整后的箱线图中的拒绝区域。根据我的经验(来自数值模拟),即使数据包含多达 10-15% 的异常值集中在一条尾部,它们也有望可靠地检测到不对称污染。调整后的箱线图被广泛实施,它们与经典箱线图的联系使它们易于理解和使用。这个答案解释并说明了在像你这样安静的环境中使用调整后的箱线图。

在我看来,如果您有理由相信您的数据是从某个多数分布加上污染的重尾分布中提取的,那么这些拒绝规则最有意义。理想情况下,受污染情况的图片应该利用真实产生过程(物理、生物、经济等)的主题知识。

相反,如果你没有独立的理由相信存在污染物,你怎么能指望选择任何拒绝规则都是正确的做法呢?

但是至少有另一种世界观,即异常值可能正是您对重尾分布(在这个问题中是不对称的)分布所期望的,它可能类似于也可能不类似于某些教科书分布,例如对数正态分布。

由于明显的不对称性,我希望首先尝试转换,然后查看异常值是否在更接近对称的尺度上明显。或者,越来越普遍的是,答案不是拒绝异常值,而是使用基于重尾分布的模型。

我在这里想要强调一种观点,即异常值拒绝规则可能会导致与它们解决的问题一样多的问题,并且它们不需要成为常规数据分析的一部分。

我意识到有些人有大量质量可疑的实时数据集,他们可能会判断他们别无选择,只能用一些异常值拒绝规则来过滤它们,但我怀疑在统计人员中我不是唯一一个对此深表怀疑的人规则。

这是基本的,但值得一提的是,异常值通常是真实且重要的,尽管我经常遇到学生决定忽略它们,因为分析起来很尴尬。

这是双输:如果你对精确的生成过程有很好的理解,你可以设计一个异常值拒绝规则,但你没有,所以谁知道你使用的任何规则的真正属性是什么。