机器算法验证 - 使用基于等级的测试时，我们是否需要担心异常值？ - 吾爱随笔录

使用基于等级的测试时，我们是否需要担心异常值？

机器算法验证异常值排名

2022-03-12 04:31:33

抱歉，如果这是一个非常基本的问题。

如果我们有非正态分布的数据（例如偏态，Shapiro-Wilk 检验显着）并且我们采用基于秩的方法（例如 Wilcoxon 符号秩检验），那么我们是否需要关注异常值？

例如，想象一下，我们使用箱线图绘制数据，并且少数数据点被标记为异常值。我们应该改变这些点吗？或者删除它们？在我看来，许多教科书都在谈论处理异常值，但这仅仅是因为它们对均值和标准差等参数产生了重大影响。但是，当我们使用基于等级的测试时，它们已经被“转换”为等级中的下一个值，因此不会对测试产生重大影响。到目前为止，我还没有在统计书中看到过明确的说明，所以我想我会在这里问这个问题。

使用基于等级的测试时，我们是否需要担心异常值？

2个回答

@Hotaka 的回答非常正确。排名使转换变得不必要；它本身就是一种忽略精确值的转换，除非它们会导致等级差异。事实上，稍加思考，或者一些示例计算，就会发现对数或平方根或任何其他单调变换排序后的结果与对原始数据排序后的结果完全相同。

但可以说的更多。非此即彼的思考

我的数据要么是正态分布的，要么我可以使用标准或经典程序。
或者我需要求助于基于等级的测试。

有点明显，并且（可能会建议）过于简化。尽管如果不了解您的数据和您的确切目标，很难准确地建议您应该做什么，但还有其他观点：

许多统计用户查看边际（单变量）分布并评估它们是否接近正态性，但这甚至可能不相关。例如，回归类型程序不需要边际正态性。对于许多程序来说，更重要且更接近主要假设的是手段的行为方式，而不是数据的行为方式。
即使（比如说）夏皮罗-威尔克测试的常规水平的显着结果在指导以后的分析方面也是模棱两可的。它只是说“您的分布与正态分布明显不同”。这本身并不意味着你所拥有的非正常程度会使你的想法变得无效或荒谬。它可能只是意味着：小心行事，因为潜在的假设并不完全满足。（实际上，无论如何，他们永远不会完全满意。）培养的习惯是认为所有 P 值都是近似值。（即使没有做出关于分布的假设，关于抽样或独立性或无误差测量的假设通常也是隐含的。）
尽管许多教科书和课程暗示并非如此，但非参数统计是一个光荣的死胡同：有一堆有时有用的测试，但实际上你放弃了大多数对现代统计至关重要的有用建模。
这里提到了异常值，它们总是值得密切关注。绝不应该仅仅因为它们不方便或看起来是不满足假设的原因而忽略它们。有时，转换规模的分析是最好的前进方式。有时，一些轻微的异常值并不像经验不足的统计用户所担心的那样成问题。对于小样本，即使生成过程表现良好，数据通常也会显得参差不齐或块状；对于大样本，单个异常值不需要支配其余数据。
始终可以选择同时进行这两种测试，例如 Student's t 和 Mann-Whitney-Wilcoxon。他们不会问完全相同的问题，但通常很容易看出他们是否指向同一个方向。也就是说，如果在测试和另一个测试中都给出了两个组不同的明确信号，那么您可以确信您的结论得到了很好的支持（并且对怀疑者不信任一个或其他程序的怀疑论者给出了一些非正态性）。如果两个测试给出的答案截然不同，这本身就是有用的证据，表明您需要非常仔细地考虑如何最好地分析数据。（也许这个巨大的异常值确实决定了答案的出路。）

根据经验，统计数据的用户通常比文本或课程所暗示的更非正式。如果您与他们进行分析，您通常会发现他们会做出快速判断，例如“当然，箱线图显示了一些轻微的异常值，但是对于像这种方差分析这样的数据应该可以正常工作”或“带有标记的偏斜，对数刻度是唯一明智的选择"。我认为您不会经常发现他们根据 Shapiro-Wilk 测试在时是否显着来选择技术。说这样的话可能对经验不足的用户没有多大帮助，但它似乎比统计数据提供必须始终遵循的确切食谱的想法更真实。 $P < 0.05$

不会。当对数据进行排名时，异常值将被简单地识别为排名高于（或低于）下一个不太极端的情况的情况。无论最极端值和第二极端值之间是否存在 0.01 或 5 个标准偏差，在对数据进行排序时，这种程度的差异都会被丢弃。

事实上，有人可能使用基于等级（或非参数）测试的众多原因之一是异常值。

其它你可能感兴趣的问题

上一篇差异中差异的数据设置下一篇高斯过程回归玩具问题