背景:
样本集中通常有一些值与其他值不紧密兼容。它们将被称为极端值或简单的异常值。处理异常值一直是一个挑战。有一些方法可以解决异常值存在的问题:
- 将它们移动到一个单独的集合
- 用非异常值集中最接近的值替换它们
- ...
问题:
处理异常值最推荐的方法是什么?(有细节和例子)
背景:
样本集中通常有一些值与其他值不紧密兼容。它们将被称为极端值或简单的异常值。处理异常值一直是一个挑战。有一些方法可以解决异常值存在的问题:
问题:
处理异常值最推荐的方法是什么?(有细节和例子)
过去我推荐了两种方法。在一般意义上,它们取决于数据的性质。
如果异常值是众所周知的数据分布的一部分,并且存在众所周知的异常值问题,那么,如果其他人还没有这样做,请使用各种处理方法来分析有和没有异常值的分布,看看有什么发生。您将经常处理这些数据。您不妨了解一个异常值问题。例如,Ratcliff 有一篇关于反应时间的不错的小论文,您可以将其视为示例。如果您的示例中有类似的论文,请阅读它们。
如果异常值来自相对独特的数据集,则针对您的具体情况分析它们。分析有和没有它们,如果你有理由的话,也许还有替代方案,并报告你的评估结果。
所以,简而言之,分析和记录。这是最好的做法。
我应该明确指出,异常值的定义需要相对独立于统计分布(在程度上,不一定是形状)。例如,对于反应时间,您可以将短异常值定义为那些不是对刺激的真正反应而是预期的异常值。长的可能有类似的定义,因为它们不是对刺激开始的反应,而是其他东西(其他东西可能是各种各样的东西)。仔细检查并发现 3% 的数据点与平均值相差超过 2 个 SD 并不表明您有少量异常值。相反,它表明您没有异常值,应该保留所有异常值。