异常值的严格定义?

机器算法验证 异常值 定义
2022-02-09 12:00:45

人们经常谈论处理统计中的异常值。对此困扰我的是,据我所知,异常值的定义完全是主观的。例如,如果某个随机变量的真实分布是重尾分布或双峰分布,则任何用于检测异常值的标准可视化或汇总统计都会错误地删除您要从中采样的分布部分。什么是异常值的严格定义(如果存在),如何处理异常值而不在分析中引入不合理的主观性?

4个回答

只要您的数据来自具有已知属性的已知分布,您就可以将异常值严格定义为观察过程不太可能生成的事件(如果您认为“不太可能”是不严格的,那么所有假设检验都是)。

然而,这种方法在两个层面上存在问题:它假设数据来自具有已知属性的已知分布,并且它带来了异常值被视为被某些神奇精灵走私到您的数据集中的数据点的风险。

在没有神奇的数据仙子的情况下,所有的数据都来自你的实验,因此实际上不可能有异常值,只是奇怪的结果。这些可能来自记录错误(例如 4 美元的 400000 间卧室的房子),系统测量问题(如果对象太靠近边界,图像分析算法会报告巨大的区域)实验问题(有时,晶体从溶液中沉淀出来,发出非常高的信号)或系统的特征(一个细胞有时可以分成三部分而不是两部分),但它们也可能是一种机制的结果,因为这种机制很少见,而且你正在做研究,这意味着您所做的一些事情根本不为人所知。

理想情况下,您花时间调查每个异常值,并且只有在您了解为什么它不适合您的模型时才将其从数据集中删除。这是耗时且主观的,因为原因高度依赖于实验,但替代方案更糟糕:如果您不了解异常值的来源,您可以选择让异常值“弄乱”您的结果,或者定义一些“数学上严谨”的方法来隐藏你缺乏理解。换句话说,通过追求“数学严谨性”,你在没有显着效果和不上天堂之间做出选择。

编辑

如果你只有一个数字列表而不知道它们来自哪里,你就无法判断某个数据点是否是异常值,因为你总是可以假设所有数据都是异常值的分布。

您是正确的,删除​​异常值看起来像是一项主观练习,但这并不意味着它是错误的。对于关于数据分析的每一个决定总是有一个严格的数学理由的强迫性需求通常只是对最终结果是主观练习的人为严谨的薄薄的面纱。如果您想对遇到的每种情况应用相同的数学证明,则尤其如此。(如果所有事情都有明确的数学规则,那么你就不需要统计学家了。)

例如,在您的长尾分布情况下,没有可靠的方法可以仅根据数字来确定您是否有一个具有异常值的潜在利益分布或两个具有异常值的潜在利益分布,而异常值只是其中一个的一部分。或者,天堂禁止,只是数据的实际分布。

您收集的数据越多,您进入分布的低概率区域的次数就越多。如果您收集 20 个样本,则不太可能获得 z 分数为 3.5 的值。如果你收集了 10,000 个样本,你很可能会得到一个,这是分布的一个自然部分。鉴于上述情况,你如何决定仅仅因为某些事情是极端的而将其排除在外?

一般来说,选择最佳分析方法通常是主观的。它是否过于主观取决于对决定的解释和异常值。

我认为在不假设产生数据的基础过程模型的情况下定义异常值是不可能的。如果没有这样的模型,我们就没有参考框架来确定数据是异常还是“错误”。我发现有用的异常值的定义是异常值是不能与其他表现良好的模型协调的观察(或观察)。

这里有很多很好的答案。但是,我想指出两个问题被混淆了。第一个是,“什么是异常值?”,更具体地说,是给出一个“严格的定义”。这很简单:

异常值是来自与您打算研究的/其他数据不同的总体/分布/数据生成过程的数据点。

第二个问题是“我如何知道/检测数据点是异常值?” 不幸的是,这非常困难。但是,这里给出的答案(确实非常好,我无法改进)将对这项任务很有帮助。