平均值的标准误差低于 5% 的修剪平均值?

机器算法验证 意思是 引导程序 强大的 修剪平均
2022-03-16 03:30:09

我正在研究使用修剪后的平均值来测量各种分布的位置。这些分布有时会受到严重污染,有时不会。通常它们遵循类似于对数正态分布或可能混合对数正态分布的东西,但通常数据“无处不在”。

我查看了平均值、5% 修剪平均值、10% 修剪平均值和 20% 修剪平均值。对于每个我使用引导程序估计标准误差。

但令我惊讶的是,根据引导程序,平均值的标准误差通常低于 5% 的修剪平均值。因此,在大量数据集中,我发现从最低标准误差到最高标准误差是 20% 修剪,10% 修剪,平均,5% 修剪。

这个结果是非典型的,还是常见的?(请注意,在稳健统计和引导方面,我是初学者,所以我可能犯了一个基本的概念错误)。感谢您的任何提示。


跟进结果:我重新进行了练习,但数据更多。我总共应用了大约 4000 个数据集。结果如下

technique      number of times lowest std error
mean           1867
5% trimmed     263
10% trimmed    430
20% trimmed    787
median         663

在这个新数据中,当平均值具有最低标准误差时,它只会稍微好一点,而当它表现不佳时,它的表现真的很差。因此,当我查看不同技术的所有数据集的平均标准误差时,结果可能与预期一致。

technique      avg std error
mean           4.51
5% trimmed     4.33
10% trimmed    4.05
20% trimmed    3.78
median         4.36
3个回答

乍一看,这确实令人惊讶,但这里是对正在发生的事情的猜测。

关注什么是引导样本,即具有替换的样本。因此,这些样本中的一些将不时包含异常值或野值的重复这些样本将被修剪,但在某些情况下,修剪不足以排除所有重复的野生值。但随着修剪程度的增加,这种病理现象不太可能被发现。

为了说明这一点,让我们假设一个包含 20 个值的样本 1(1)19, 2000。修剪 5% 始终足以处理原始数据中的异常值。但是修剪 5% 不足以处理 2000、2000 或 2000、2000、2000 等的引导样本。会有很多案例没有出现 2000 年,但它们(显然)不能平衡其他情况。

引导程序当然不是无论如何都有效的白魔法。使用神秘的输出,您需要超越打印的摘要,并从所有引导样本中查看整个分布的样子。我的猜测是,你在 5% 处有一个非常疯狂的结果,这扩大了标准误差。事实上,在所有修剪比例下,您都会得到非常狂野的结果,但随着修剪比例的增加,效果会变得不那么明显。

否则,问题的一部分是标准误差不可避免地受到所有值的影响,这里是所有修剪的手段。我也会查看基于百分位数的置信区间。

如果基础总体是无污染的正态分布,则样本均值是总体分布中心的最佳无偏估计(在最低均方误差的意义上)。

其他分布并非总是如此,其中可能包括那些有污染的分布。因此,您的观察取决于特定的分布和污染。

修剪均值的效率取决于分布的形状。

如果基础分布非常不对称(例如指数),那么修剪将使您的均值偏向负方向。

或者说,如果分布是具有不同均值的两种分布的混合,则修剪可能会删除更多的一种,从而再次使估计值产生偏差。例如,如果 90% 的数据是而其余的是,那么修剪将删除后面的大部分点,让您的估计值更接近而不是真实值 .N(0,1)N(1,10)00.1

因此,平均值应该比修剪后的平均值更好是合理的,即使在标准正常情况之外也是如此。

似乎更令人惊讶的是,修剪量的准确性并不是单调的——你列出了 20%、10%、0%、5%,从最准确到最不准确。如果再次混合,这可能会发生这种情况,这次是的 15%的样本量个样本,导致高标准误差,但修剪得足够多会完全消除它们;因为它们具有相同的含义,您可以获得更好的估计。N(0,1)N(0,20)N(0,20)