单变量异常值的测试:Dixon 和 Grubb 的方法是否被质疑?

机器算法验证 异常值
2022-03-21 02:39:43

与该站点上推荐 Dixon 和 Grubb 测试的许多线程相比,一个答案的作者,在这个线程上,认为“真的,这些在很久以前就已经名誉扫地了”,并提倡其他 2 种方法。我觉得没有资格理清这些论点,但我想问一下统计学家之间是否就这两种立场的优点达成了共识。

2个回答

如果你陈述事实[1],这个问题就会变得不那么有争议。毕竟,所有多元稳健估计程序的核心都是异常值检测算法,并且都会以某种形式或另一种形式输出可疑观察结果列表。换句话说,考虑到稳健的拟合,识别异常值原则上不是问题。

稳健估计方法和测试方法(Dixon,Grubbs)之间的主要区别在于后者最多可以维持一个异常值。相比之下,大多数最先进的稳健估计程序被设计为处理近 50% 的污染(原则上,它们可以调整为处理 0% 到近 50% 的异常值,以权衡计算成本的稳健性)。

[1] Rousseeuw PJ 和 Van Zomeren BC,揭示多元异常值和杠杆点。

我拒绝!早在 1980 年代,我就对 Dixon 的测试进行了研究。我看了一下那个帖子并在那里发表了评论。我认为存在混淆,因为稳健估计和异常值检测虽然相似,但目标不同,而且我认为有些人似乎认为,由于稳健性文献中没有提到异常值方法,所以它们有问题。我希望其他人会同意我回答这个问题。