稳健均值估计速成课程

机器算法验证 意思是 异常值 强大的 参考
2022-02-12 05:30:10

我有一堆(大约 1000 个)估计值,它们都应该是对长期弹性的估计值。其中超过一半是使用方法 A 估计的,其余使用方法 B 估计。在某处我读到类似“我认为方法 B 估计的东西与方法 A非常不同的东西,因为估计要高得多 (50-60%) ”。我对稳健统计的了解几乎为零,所以我只计算了两个样本的样本均值和中位数......我立即看到了差异。方法A非常集中,中位数和均值之间的差异很小,但方法B样本变化很大。

我得出的结论是异常值和测量误差歪曲了方法 B 样本,因此我丢弃了大约 50 个与理论非常不一致的值(约 15%)……突然间,两个样本(包括它们的 CI)的均值非常相似. 密度图也是如此。

(为了消除异常值,我查看了样本 A 的范围,并删除了 B 中所有超出范围的样本点。)我希望您告诉我在哪里可以找到一些稳健估计均值的基础知识请允许我更严格地判断这种情况。并有一些参考。我不需要对各种技术有非常深入的了解,而是通读对稳健估计方法的全面调查。

在去除异常值后,我对平均差异的显着性进行了 t 检验,p 值为 0.0559(t 约为 1.9),对于完整样本,t stat 约为 4.5。但这并不是重点,手段可能会有所不同,但它们不应相差 50-60%,如上所述。我不认为他们这样做。

3个回答

您是在寻找理论还是实用的东西?

如果您正在寻找书籍,这里有一些我觉得有帮助的:

  • FR Hampel、EM Ronchetti、PJRousseeuw、WA Stahel,稳健统计:基于影响函数的方法,John Wiley & Sons,1986。

  • PJ Huber,稳健统计,John Wiley & Sons,1981。

  • PJ Rousseeuw,AM Leroy,稳健回归和异常值检测,John Wiley & Sons,1987。

  • RG Staudte,SJ Sheather,稳健估计和测试,John Wiley & Sons,1990。

如果您正在寻找实用的方法,这里有一些估计平均值的可靠方法(“位置估计器”我猜是更有原则的术语):

  • 中位数很简单,众所周知,而且非常强大。它对异常值具有出色的鲁棒性。稳健性的“代价”约为 25%。

  • 5% 的修剪平均值是另一种可能的方法。在这里,您丢弃 5% 的最高值和 5% 的最低值,然后取结果的平均值(平均值)。这对异常值不太稳健:只要不超过 5% 的数据点被损坏,这很好,但如果超过 5% 的数据点被损坏,它会突然变得很糟糕(它不会优雅地降级)。稳健性的“价格”低于中位数,尽管我不知道它到底是什么。

  • Hodges-Lehmann 估计器计算集合的中位数{(xi+xj)/2:1ijn}(一组包含n(n+1)/2值),其中x1,,xn是观察。这具有非常好的鲁棒性:它可以处理多达约 29% 的数据点的损坏而不会完全崩溃。而且稳健性的“代价”很低:大约 5%。这是中位数的合理替代方案。

  • 四分位距平均值是另一种有时使用的估计量。它计算第一和第三四分位数的平均值,因此计算起来很简单。它具有非常好的鲁棒性:它可以容忍高达 25% 的数据点的损坏。然而,稳健性的“代价”并非微不足道:大约 25%。结果,这似乎不如中位数。

  • 已经提出了许多其他措施,但上述措施似乎是合理的。

简而言之,我建议使用中值或可能的 Hodges-Lehmann 估计量。

PS哦,我应该解释一下我所说的稳健性的“价格”是什么意思。即使您的某些数据点已损坏或异常值,稳健的估计器仍能正常工作。但是,如果您在没有异常值且没有损坏的数据集上使用稳健的估计器怎么办?理想情况下,我们希望稳健的估计器尽可能高效地利用数据。在这里,我们可以通过标准误差(直观地说,估计器产生的估计中的典型误差量)来衡量效率。众所周知,如果您的观察来自高斯分布 (iid),并且您知道不需要稳健性,那么均值是最优的:它具有最小的估计误差。上述稳健性的“价格”,是如果我们将特定的稳健估计器应用于这种情况,标准误差会增加多少。中位数为 25% 的稳健性价格意味着中位数的典型估计误差的大小将比均值的典型估计误差的大小大 25%。显然,“价格”越低越好。

如果您喜欢简短易懂的内容,请查看心理学文献中的以下论文:

Erceg-Hurn,DM 和 Mirosevich,VM(2008 年)。现代稳健的统计方法:一种最大限度地提高研究准确性和力量的简单方法。 美国心理学家,63(7),591-601。doi:10.1037/0003-066X.63.7.591

他们主要依赖 Rand R Wilcox 的书(当然也不是太数学):

威尔科克斯,RR (2001)。现代统计方法的基本原理:大幅提高功效和准确性。纽约; 柏林:施普林格。
威尔科克斯,RR (2003)。应用当代统计技术。阿姆斯特丹;波士顿:学术出版社。
威尔科克斯,RR (2005)。稳健估计和假设检验简介。学术出版社。

一本将理论与实践很好地结合起来的书是Jurečková 和 Picek的Robust Statistical Methods with R。我也喜欢Maronna 等人的Robust Statistics 。然而,这两者的数学计算可能比你关心的要多。对于专注于 R 的更多应用教程,此BelVenTutorial pdf可能会有所帮助。