删除分布的尾部有什么后果?

机器算法验证 回归 分布 异常值 偏见 分位数
2022-04-07 15:48:49

我想知道通过删除高于和低于某些阈值的观察来去除分布尾部的后果。

例如,如果要计算测量的百分位数,则删除每一端低于和高于百分位数阈值的所有值(低于第 1 个百分位的所有观测值,高于第 99 个百分位的所有观测值)。

直觉告诉我这是一个坏主意,但我想更具体地解释原因。

以下是我的一些问题:

  • 这将如何改变分布的行为?
  • 这里违反了哪些统计原则?
  • 这将如何改变在分析此类数据期间得出的任何结论?
  • 这是消除异常值的可行方法吗?
  • 这种策略在任何情况下都可以接受吗?

先感谢您。


编辑:

谢谢你的回复,Glen_b。作为后续,我想问一个具体的情况。

假设我们想计算一个衡量某个协变量的标准分数。我们通过将测量值与协变量进行回归来做到这一点,然后使用回归的预测响应获得标准分数。

我们想让这个过程对异常值更加稳健。

是否建议在任何分析之前修剪数据(不保留丢弃的值),然后执行分析?

作为简单丢弃数据的替代方法,是否可以使用修剪子集拟合回归模型,然后应用该模型来标准化整个数据集?这会类似于Least Trimmed Squares Regression吗?


编辑#2:

澄清:我们使用协变量作为回归中测量的自变量/预测变量。

目标是校正协变量的测量值,因为我们认为测量值高度依赖于该协变量。

我们通过使用回归模型的预测响应对值进行标准化来做到这一点。然后可以将标准化应用于新获得的测量值和协变量值对,以确定它们的行为是否与原始样本相似。

Z(一世)=是的一世-(是的|X一世)σ^

离群值是对因变量(y 离群值)测量的关注。

哪种类型的稳健回归适合?M估计?

1个回答

删除下面的观察ķth百分位及以上(100-ķ) 在计算某个估计量之前与修整(即计算修整的估计量)相同。

修剪对分布的影响实际上是两端截断的影响。基于样本的修剪对观察到的分布(多个样本的平均值)的影响略有不同,因为分位数是随机变量而不是固定数字;在非常大的样本中,它变得与截断非常相似。

它对您所做的任何事情的影响取决于具体情况;例如,对某些估计器的影响取决于您在修剪观察后应用的估计器,以及您应用该过程的分布。

它当然可以减少产生总异常值的影响污染(尽管在许多情况下,其他估计器,例如位置的 M 估计器,可能是比修剪位置估计器更好的选择;对于其他类型的估计器也是如此)。

如果将其应用于(例如)方差计算,则会导致向下偏差。一些作者建议对均值和 Winsorizing 进行微调,而不是对计算方差或标准差进行微调(这不会消除偏差,但会减少偏差)。


这里违反了哪些统计原则?

我不太确定您要的是什么,但是许多事物的属性会发生变化;例如查看下一个问题的答案。

这将如何改变在分析此类数据期间得出的任何结论?

这取决于你在做什么!例如,应用于修剪样本的 t 检验将不再具有名义显着性水平;但是对方差和自由度的调整应该使您能够接近所需的 I 类错误率。


有时肯定会使用这种方法。这是一个常见的简单选择,在某些情况下它表现得相当不错——但它并不总是最好的选择。

您可能会发现阅读一些有关稳健统计的信息会有所帮助。


编辑:针对新问题的进一步回答

您之前描述了一个单变量过程(从分布中剔除大小值),但现在您询问的是回归,它涉及多个变量。这改变了事情。

对于回归,您正在谈论每个点的响应的不同条件分布 - 在试图找出最极端的情况时,您不能简单地忽略 IV。

假设我们想计算一个衡量某个协变量的标准分数。我们通过根据测量回归协变量来做到这一点,然后使用回归的预测响应获得标准分数。

我不清楚这如何给你你想要的。(实际上也不清楚您的回归是哪种方式;我怀疑当您说“回归反对”时,您将其表述为 IV“回归反对”DV,这似乎与通常的惯例相反。)

我们想让这个过程对异常值更加稳健。

我将解决这个问题,抛开我上面的担忧。

是否建议在任何分析之前修剪数据(不保留丢弃的值),然后执行分析?

如果我对您的理解正确,则不,因为您正在应用边际(即无条件)方法来纠正条件模型的问题,甚至在您有机会评估它是否有条件异常之前。相反,我建议考虑稳健的回归方法。

作为简单丢弃数据的替代方法,是否可以使用修剪子集拟合回归模型,然后应用该模型来标准化整个数据集?

出于上述原因,我建议不要这样做。

这会类似于最小修剪平方回归吗?

如果我对您的理解正确,那绝不是相似的。(它确实涉及修剪某些东西,但这一点不像我从你的提议中理解的那样。)

可能值得解决您对数据的预期问题 - 是 y-outliers?,x-outliers?,每个?,两者一起?


新编辑的答案:

如果只是有问题的 y 异常值(即不存在有影响的观察值),则 M 估计可能是合理的,但许多其他稳健的回归估计器也是如此。[您也可以使用修剪,但您需要将其应用于残差......来自强大的估计,如果您已经有了,您可能不需要修剪。]