删除下面的观察ķth百分位及以上(100-ķ) 在计算某个估计量之前与修整(即计算修整的估计量)相同。
修剪对分布的影响实际上是两端截断的影响。基于样本的修剪对观察到的分布(多个样本的平均值)的影响略有不同,因为分位数是随机变量而不是固定数字;在非常大的样本中,它变得与截断非常相似。
它对您所做的任何事情的影响取决于具体情况;例如,对某些估计器的影响取决于您在修剪观察后应用的估计器,以及您应用该过程的分布。
它当然可以减少产生总异常值的影响污染(尽管在许多情况下,其他估计器,例如位置的 M 估计器,可能是比修剪位置估计器更好的选择;对于其他类型的估计器也是如此)。
如果将其应用于(例如)方差计算,则会导致向下偏差。一些作者建议对均值和 Winsorizing 进行微调,而不是对计算方差或标准差进行微调(这不会消除偏差,但会减少偏差)。
这里违反了哪些统计原则?
我不太确定您要的是什么,但是许多事物的属性会发生变化;例如查看下一个问题的答案。
这将如何改变在分析此类数据期间得出的任何结论?
这取决于你在做什么!例如,应用于修剪样本的 t 检验将不再具有名义显着性水平;但是对方差和自由度的调整应该使您能够接近所需的 I 类错误率。
有时肯定会使用这种方法。这是一个常见的简单选择,在某些情况下它表现得相当不错——但它并不总是最好的选择。
您可能会发现阅读一些有关稳健统计的信息会有所帮助。
编辑:针对新问题的进一步回答
您之前描述了一个单变量过程(从分布中剔除大小值),但现在您询问的是回归,它涉及多个变量。这改变了事情。
对于回归,您正在谈论每个点的响应的不同条件分布 - 在试图找出最极端的情况时,您不能简单地忽略 IV。
假设我们想计算一个衡量某个协变量的标准分数。我们通过根据测量回归协变量来做到这一点,然后使用回归的预测响应获得标准分数。
我不清楚这如何给你你想要的。(实际上也不清楚您的回归是哪种方式;我怀疑当您说“回归反对”时,您将其表述为 IV“回归反对”DV,这似乎与通常的惯例相反。)
我们想让这个过程对异常值更加稳健。
我将解决这个问题,抛开我上面的担忧。
是否建议在任何分析之前修剪数据(不保留丢弃的值),然后执行分析?
如果我对您的理解正确,则不,因为您正在应用边际(即无条件)方法来纠正条件模型的问题,甚至在您有机会评估它是否有条件异常之前。相反,我建议考虑稳健的回归方法。
作为简单丢弃数据的替代方法,是否可以使用修剪子集拟合回归模型,然后应用该模型来标准化整个数据集?
出于上述原因,我建议不要这样做。
这会类似于最小修剪平方回归吗?
如果我对您的理解正确,那绝不是相似的。(它确实涉及修剪某些东西,但这一点不像我从你的提议中理解的那样。)
可能值得解决您对数据的预期问题 - 是 y-outliers?,x-outliers?,每个?,两者一起?
新编辑的答案:
如果只是有问题的 y 异常值(即不存在有影响的观察值),则 M 估计可能是合理的,但许多其他稳健的回归估计器也是如此。[您也可以使用修剪,但您需要将其应用于残差......来自强大的估计,如果您已经有了,您可能不需要修剪。]