异常值检测问题

机器算法验证 数据集 异常值 质量控制
2022-03-15 06:31:28

在一篇博文中, Andrew Gelman 写道

逐步回归就是其中之一,例如异常值检测和饼图,它们似乎在非统计学家中很流行,但被统计学家认为是一个笑话。

我理解对饼图的引用,但是根据 Gelman 的说法,为什么统计学家看不起异常值检测?仅仅是因为它可能会导致人们过度修剪他们的数据吗?

2个回答

@Jerome Baum 的评论很到位。在这里引用格尔曼的名言:

异常值检测可能是一件好事。问题是,非统计学家似乎喜欢抓住“异常值”这个词,而根本不去思考产生异常值的过程,而且一些教科书的规则在我这样的统计学家看来很愚蠢,比如如果某物超过中位数的一些 sd 或其他任何东西,则将其标记为异常值。离群值的概念很有用,但我认为它需要上下文——如果你将某物标记为离群值,你想尝试了解你为什么这么认为。

为了补充一点,我们先定义outlier怎么样。尽量严格地做到这一点,不要提及“看起来离其他点很远”之类的视觉效果。这实际上是相当困难的。

我会说离群点是一个极不可能的点,因为它有一个如何生成点的模型。在大多数情况下,人们实际上并没有关于如何生成点的模型,或者如果他们这样做了,那么它过于简单以至于在很多时候都是错误的。所以,正如安德鲁所说,人们会做一些事情,比如假设某种高斯过程正在生成点,所以如果一个点与平均值相比超过一定数量的 SD,它就是一个异常值。数学上很方便,不是那么有原则。

我们甚至还没有深入了解一旦发现异常值,人们会如何处理它们。例如,大多数人都想扔掉这些不方便的地方。在许多情况下,导致突破和发现的是异常值,而不是非异常值!

正如非统计学家所实践的那样,异常值检测中有很多临时性,安德鲁对此感到不舒服。

这证明了统计分析(例如回归)的两种类型目标之间的经典拉锯战:描述性与预测性。(请原谅我在下面的评论中的概括。)

从统计学家的角度来看,描述通常比预测更重要。因此,他们天生对解释有“偏见”。为什么会有异常值?它真的是数据输入中的错误(值末尾的额外零)还是恰好是极端的有效数据点?这些是统计学家的重要问题。

OTOH,数据科学家对预测而不是描述更感兴趣。他们的目标是开发一个强大的模型,可以很好地预测未来的结果(例如,购买、流失)。如果其中一个领域存在极值,如果这有助于提高模型的预测准确性,数据科学家会很乐意限制该值(例如,限制在第 98 个百分位值)。

我对这两种方法中的任何一种都没有普遍的倾向。但是,逐步回归和异常值处理等方法/方法是否“有点开玩笑”取决于您站在围栏的哪一边。