机器算法验证 - 正态分布中的均值与修剪均值 - 吾爱随笔录

机器算法验证 r 正态分布意思是截断修剪平均

2022-04-07 03:48:28

在 RI 中正态分布的简单实验中，运行了 500 次模拟正态分布迭代，每次 N=100。对于 500 次迭代中的每次迭代，我都计算了平均值和修剪后的平均值，修剪率为 20%（从每一侧），每个都有 500 个值。然后，我将两者的值与箱线图进行了比较：

似乎平均值更“精确”。我在几乎所有的尝试中都设法重现了这些结果，而在我做不到的尝试中，箱线图对每个结果都产生了相似的图。

这感觉有点违反直觉。我希望它是相反的，因为 20% 的修剪会消除高偏差的结果。对于这个观察，我能想到的唯一解释是修剪删除了原本会“平衡”平均值的数据，但这不是一个正式的解释。

希望对这一观察有一些见解，谢谢！

2个回答

对于像正态分布这样的指数族，样本平均值 $\bar{x}$ 已知达到Cramer-Rao 下界，即均值的所有无偏估计量之间的最小可能方差。因此，发现另一个估计量（例如修剪均值）比 $\bar{x}$ .

对于轻尾分布，越远的点越能提供关于位置的信息；对于重尾分布，将它们包含在平均值中可能会从无益到破坏性。

因此，当您使用具有重尾分布的经过适当修剪的均值时，它的方差往往比不修剪的要低。另一方面，当您使用轻尾分布进行计算时，您会丢弃有价值的数据（因此您的估计会比较嘈杂，有点像如果您的样本较小）

如果你看着说 $t_4$ 分布你可以看到修剪带来的一些好处。如果你看制服 $(-k,k)$ ，您可以看到修剪的成本（实际上，您最好在一些非常小的修剪水平上平均修剪掉的值而不是使用平均值）。

这些模拟在每种情况下都是针对 n = 100 的。

其它你可能感兴趣的问题