高斯效率是什么意思?

机器算法验证 正态分布 强大的
2022-03-21 11:23:13

在稳健估计的情况下,高斯效率意味着什么?例如具有 82% 的高斯效率和 50% 的击穿点。Qn

参考文献是:Rousseeuw PJ 和 Croux, C. (1993)。“中值绝对偏差的替代方案。” J. 美国统计协会,88,1273-1283

2个回答

我同意@cardinal 和@whuber 的观点,即这是关于渐近相对效率的,如果其他人对这个概念感兴趣,我在这里写一个答案。

在统计学中,衡量一个估计器使用其渐近方差的效率是很常见的。相对于的渐近相对效率定义为 在稳健的统计数据中,我们在 ARE 中进行期望的定律通常是一个损坏的分布。dnsn

ARE=limnvar(sn)/E(Sn)2var(dn)/E(dn)2.

例如,我展示了Huber 和 Ronchetti所著的Robust Statistics一书中的一个示例(参见第 3 页)。假设来自一个损坏的高斯分布 ,因此具有高概率 ( ) 数据是标准正态数据,概率较小 ( ) 数据是正态数据,方差较高。那么, 但只要,我们有X1,,Xn

F(x)=(1ε)Φ(x)+εΦ(x3)
1εε
dn=1ni=1n|XiX¯| and sn=(1ni=1n(XiX¯)2)1/2
0.876ε=0ε>0.005ARE>1例如对于,我们有我们得出结论,当数据损坏时,平均绝对偏差比标准更有效。ε=0.01ARE1.44

我猜高斯效率与计算成本有关。

高斯适应的效率依赖于 Claude E. Shannon 的信息理论。当事件以概率 P 发生时,可以得到信息 -log(P)。例如,如果平均适应度为 P,则为生存而选择的每个个体获得的信息将是 -log(P) - 平均而言 - 并且获取信息所需的工作/时间与 1/P 成正比。因此,如果效率 E 被定义为信息除以获得它所需的工作/时间,我们有:E = -P log(P)。该函数在 P = 1/e = 0.37 时达到最大值。盖恩斯用不同的方法得到了同样的结果。

我可以简单地得出结论,高斯效率越高,计算诸如大样本的鲁棒规模估计器之类的东西所需的资源 (RAM) 就越少。由于 CPU 比计算机的其他部分快得多,我们更愿意多次运行试错算法,而不是使用 128GB 的​​ RAM 一次运行。当高斯效率高时,工作将在更短的时间内完成。