机器算法验证 - 高斯效率是什么意思？ - 吾爱随笔录

高斯效率是什么意思？

机器算法验证正态分布秤强大的

2022-03-21 11:23:13

在稳健估计的情况下，高斯效率意味着什么？例如具有 82% 的高斯效率和 50% 的击穿点。 $Q_{_n}$

参考文献是：Rousseeuw PJ 和 Croux, C. (1993)。“中值绝对偏差的替代方案。” J. 美国统计协会，88，1273-1283

2个回答

我同意@cardinal 和@whuber 的观点，即这是关于渐近相对效率的，如果其他人对这个概念感兴趣，我在这里写一个答案。

在统计学中，衡量一个估计器使用其渐近方差的效率是很常见的。相对于的渐近相对效率定义为在稳健的统计数据中，我们在 ARE 中进行期望的定律通常是一个损坏的分布。 $d_n$ $s_n$

A R E = lim_{n \to \infty} \frac{v a r (s_{n}) / E (S_{n})^{2}}{v a r (d_{n}) / E (d_{n})^{2}} .

$ARE=\lim_{n \to \infty}\frac{var(s_n)/E(S_n)^2}{var(d_n)/E(d_n)^2}.$

例如，我展示了Huber 和 Ronchetti所著的Robust Statistics一书中的一个示例（参见第 3 页）。假设来自一个损坏的高斯分布，因此具有高概率 ( ) 数据是标准正态数据，概率较小 ( ) 数据是正态数据，方差较高。那么，是当但只要，我们有 $X_1,\dots, X_n$

F (x) = (1 - ε) Φ (x) + ε Φ (\frac{x}{3})

$F(x)=(1-\varepsilon)\Phi(x)+\varepsilon \Phi(\frac{x}{3})$

1 - ε

$1-\varepsilon$

ε

$\varepsilon$

d_{n} = \frac{1}{n} \sum_{i = 1}^{n} | X_{i} - \bar{X} | and s_{n} = {(\frac{1}{n} \sum_{i = 1}^{n} (X_{i} - \bar{X})^{2})}^{1 / 2}

$d_n=\frac{1}{n}\sum_{i=1}^n |X_i-\overline{X}|\text{ and }s_n=\left(\frac{1}{n}\sum_{i=1}^n (X_i-\overline{X})^2\right)^{1/2}$

≃ 0.876

$\simeq 0.876$

ε = 0

$\varepsilon = 0$

ε > 0.005

$\varepsilon>0.005$

A R E > 1

$ARE>1$ 例如对于，我们有。我们得出结论，当数据损坏时，平均绝对偏差比标准更有效。

ε = 0.01

$\varepsilon=0.01$

A R E ≃ 1.44

$ARE \simeq 1.44$

我猜高斯效率与计算成本有关。

高斯适应的效率依赖于 Claude E. Shannon 的信息理论。当事件以概率 P 发生时，可以得到信息 -log(P)。例如，如果平均适应度为 P，则为生存而选择的每个个体获得的信息将是 -log(P) - 平均而言 - 并且获取信息所需的工作/时间与 1/P 成正比。因此，如果效率 E 被定义为信息除以获得它所需的工作/时间，我们有：E = -P log(P)。该函数在 P = 1/e = 0.37 时达到最大值。盖恩斯用不同的方法得到了同样的结果。

我可以简单地得出结论，高斯效率越高，计算诸如大样本的鲁棒规模估计器之类的东西所需的资源 (RAM) 就越少。由于 CPU 比计算机的其他部分快得多，我们更愿意多次运行试错算法，而不是使用 128GB 的 RAM 一次运行。当高斯效率高时，工作将在更短的时间内完成。

其它你可能感兴趣的问题

上一篇如何比较两个距离矩阵？下一篇为什么 20,000 次投掷中有 10,000 次正面朝上的统计论证表明数据无效