我需要一些关于什么是合理数量的案例作为异常值删除的建议。
我已应用异常值检测方法从我的数据集中识别单变量和多变量异常值。总共有 30% 的数据被归类为异常值。
如果我删除所有这些异常值,我的结果似乎会有所改善。此外,在删除异常值后,我的样本量仍然很好(即 n=300)。
- 删除所有归类为异常值的案例是否合理?
我需要一些关于什么是合理数量的案例作为异常值删除的建议。
我已应用异常值检测方法从我的数据集中识别单变量和多变量异常值。总共有 30% 的数据被归类为异常值。
如果我删除所有这些异常值,我的结果似乎会有所改善。此外,在删除异常值后,我的样本量仍然很好(即 n=300)。
如果有人告诉我我的样本中有 30% 是异常值,我会非常怀疑......
我不会盲目地相信固定的例程,而是会仔细分析数据并尝试找出异常值为什么是异常值。它是“错误”还是“功能”?是测量误差吗?您的样本是否涵盖不同的亚群(混合物)?
此外,异常值的检测涉及或多或少任意定义阈值,将“好”和“坏”分开。您应该评估这些阈值是否合理。因此,移动球门柱并看看会发生什么可能是一个好主意。
另请注意,如果您担心异常值,您可以使用稳健的统计技术,而不是放弃观察。
绝对不是:离群点是远离分布中大部分其他点的点,“离群点”的诊断通常是通过与一些假设的分布形式进行比较来完成的。尽管异常值有时可能是由测量误差引起的,但当数据遵循高峰度分布(即肥尾)时,也会出现异常值诊断,但分析人员会将数据点与假设的低峰度分布形式(例如,正态分布)。
“异常值”的整个概念” 确实弊大于利。真正需要的是认识到删除测量不正确的数据点是可以的,但删除是合法观察的数据点是不行的(除了有限的敏感性目的分析)。除非统计分析人员有证据表明由于测量误差而出现了“异常值”,否则几乎总是会因为数据遵循具有高峰度的分布(即,较宽的尾部)而不是假设分布形式。得出这样的结论,这反映了数据的某些问题,就等于声称现实必须符合您的统计假设,而当它不符合您的统计假设时,它就犯了一个不幸的错误,您将通过删除不符合您的假设的部分现实来纠正您的分析。
在任何情况下,如果分析师将大量数据(例如 30% 的数据)识别为“异常值”,则很可能是异常值检验应用不正确,或者异常值检验基于假设尾部比尾部更细的分布假设。数据,因此被数据篡改。无论哪种情况,这都是出现问题的明确信号。 就个人而言,我永远不会相信任何将大部分数据删除为“异常值”的分析。
鉴于此,我建议您首先考虑是否有任何数据点因测量误差而具有不正确的值。如果您有充分的理由认为发生了这种情况,则删除这些并在您的分析中记录它们的删除是合法的。(请记住,除非进行观察的人非常不称职,否则实际上您的测量误差不应超过少数点。)如果您仍然发现您有大量“异常值”,那么这几乎可以肯定意味着您使用的统计模型的尾部分布比数据所保证的要细(例如,您假设一个正态分布,但存在大量超额峰度)。找到数据中残差的样本峰度,并将其与假设的分布形式进行比较以进行检查。如果您假设的形式与数据不匹配,请考虑将其替换为具有较高峰度的分布(例如,您可以将正态分布替换为t 分布或广义误差分布)。