正态分布中的均值与修剪均值

机器算法验证 r 正态分布 意思是 截断 修剪平均
2022-04-07 03:48:28

在 RI 中正态分布的简单实验中,运行了 500 次模拟正态分布迭代,每次 N=100。对于 500 次迭代中的每次迭代,我都计算了平均值和修剪后的平均值,修剪率为 20%(从每一侧),每个都有 500 个值。然后,我将两者的值与箱线图进行了比较: 箱线图(平均值与修剪平均值)

似乎平均值更“精确”。我在几乎所有的尝试中都设法重现了这些结果,而在我做不到的尝试中,箱线图对每个结果都产生了相似的图。

这感觉有点违反直觉。我希望它是相反的,因为 20% 的修剪会消除高偏差的结果。对于这个观察,我能想到的唯一解释是修剪删除了原本会“平衡”平均值的数据,但这不是一个正式的解释。

希望对这一观察有一些见解,谢谢!

2个回答

对于像正态分布这样的指数族,样本平均值x¯已知达到Cramer-Rao 下界,即均值的所有无偏估计量之间的最小可能方差。因此,发现另一个估计量(例如修剪均值)比x¯.

对于轻尾分布,越远的点越能提供关于位置的信息;对于重尾分布,将它们包含在平均值中可能会从无益到破坏性。

因此,当您使用具有重尾分布的经过适当修剪的均值时,它的方差往往比不修剪的要低。另一方面,当您使用轻尾分布进行计算时,您会丢弃有价值的数据(因此您的估计会比较嘈杂,有点像如果您的样本较小)

如果你看着说t4分布你可以看到修剪带来的一些好处。如果你看制服(k,k),您可以看到修剪的成本(实际上,您最好在一些非常小的修剪水平上平均修剪掉的值而不是使用平均值)。

t4 和统一数据的 0%、5%、10%、15% 和 20% 修剪均值的抽样分布箱线图; 箱线图显示,t4 的传播最初随着修剪百分比而减小,但对于制服,随着修剪百分比的传播不断增加

这些模拟在每种情况下都是针对 n = 100 的。