我可以删除过多的多元异常值,例如样本中超过 10% 的异常值吗?

机器算法验证 多元分析 因子分析 民意调查 有效性
2022-03-26 19:16:58

我有一个包含大约 9000 个案例的数据集,我正在运行因子分析,我发现 1100 个案例被确定为多元异常值。我可以继续删除它吗?

3个回答

很难看出 10% 的数据如何被称为异常数据。

没有什么说你不能省略它们,只要你清楚地说明你做了什么。但是,这个特殊的例子似乎有点极端。

对于异常值,我首先要问,它们是错误的吗?如果它们是错误的,我想修复它们;如果我无法修复它们,我会相当乐意忽略它们(尽管我会担心偏见)。

如果它们似乎不是错误(或者无法判断),我会问:它们会影响结果吗?如果省略它们给出与否相同的答案,我会很高兴并继续前进。如果它确实重要,我会寻找更强大的分析方法。

我会更仔细地研究您识别异常值的方法:它是否做出了某种明显错误的假设?

最重要的是,我会查看大量不同的数据图,看看是什么导致这 10% 的点被称为异常值,以及它是否看起来完全合理(尽管我看不到怎么可能)。

除了@karl broman 的优秀观点之外,我很好奇有多少变量。你可能会遇到“维度的诅咒”。

另外,我不会因为一些任意阈值而删除异常值。你还没有说你正在研究什么,但通常情况下,离群值就是你感兴趣的地方。

我非常同意@Karl 关于首先查看图表的观点——很多图表。

虽然上述主题很有趣,但我认为有 171 个项目的有效性将是一个超越统计数据的问题。人们会机械地回答,这是一个真正的风险,导致直线或代表光环或喇叭效应的非常大的初始因素。我认为您的团队应该能够使用非统计标准将调查缩减到更易于管理的水平,这将使其更值得您进行统计分析。