我们能否以无偏且稳健的方式估计非对称分布的均值?

机器算法验证 无偏估计器 强大的
2022-03-22 23:09:09

假设我有 iid 样本X1,,Xn来自一些未知的分布F我想估计平均值μ=μ(F)那个分布,我坚持估计是无偏的——即,E[T(X1,,Xn)]=μ.

典型估计量是样本均值X¯=1ni=1nXi. 这始终是无偏的,并且对于许多分布族,例如高斯分布,它在方差方面是最优的或接近最优的。

但是,样本均值并不稳健特别是,如果单个样本均值可以任意变化Xi被改变。这意味着它的故障点为 0。

更稳健的估计量是样本中位数。对于大多数样本而言,更改几个数据点不会显着改变中位数。这具有 0.5 的击穿点,这是可能的最高值。

对于高斯数据,样本中位数的方差高于样本均值(高出一个因子π/2)。但是,对于其他分布,例如拉普拉斯分布学生分布t-distribution,中位数的方差实际上低于均值。

此外,如果分布是对称的(关于其均值),则中位数始终是无偏的。许多自然分布是对称的,但也有很多不是,例如以下示例。

  1. 二项式
  2. 泊松
  3. 对数法线
  4. 伽玛
  5. F-分布
  6. 几何分布

我的问题是:对于自然不对称分布的均值,是否存在稳健且无偏的估计器?健壮是指非零故障点,自然是指上述列表或类似列表中的某些内容(只是不是虚构的示例)。我找不到任何例子。我会对二项式案例特别感兴趣。

2个回答

正如 whuber 所说,回答您的问题的一种方法是消除您的估算器的偏差。如果稳健估计器有偏差,也许你可以减去理论偏差(根据参数模型),有一些工作试图做到这一点或减去偏差的近似值(我不记得参考但我可以有兴趣的可以搜索一下)。例如,考虑指数模型中的经验中位数。我们可以计算它的期望值,然后减去这个期望值,如果你愿意,我可以进行计算,这相当简单……如果估计量比中位数更复杂,这将变得更加困难,并且这只适用于参数模型。

一个可能不那么雄心勃勃的问题是我们是否可以构建一个一致的稳健估计器。我们可以做到这一点,但我们必须小心我们所说的稳健。

如果您对鲁棒性的定义是具有非零渐近分解点,那么我们已经可以证明这是不可能的。假设您的估算器被称为Tn它收敛到E[X].Tn有一个非零故障点,这意味着可能有一部分ε>0的数据任意坏,尽管如此Tn不会任意大。但这不可能是因为在极限情况下,如果一部分数据是异常值,这意味着:有概率1ε,X从目标分布中采样P并且很有可能ε X是任意的,但这使得E[X]也是任意的(如果你想让我正式地说,我可以)这与非渐近分解点相矛盾Tn.

最后,为了总结这一点,我们可以采取非渐近的观点。说我们不关心渐近分解点,重要的是非渐近分解点(类似于1/n. 或者在重尾数据上高效。

在这种情况下,存在稳健且一致的估计量E[X]. 例如,我们可以将 Huber 的估计器与一个趋于无穷大的参数一起使用,或者我们可以使用具有趋于无穷大的块数的均值估计器。这一思路的参考文献是 Olivier Catoni 的“挑战经验均值和经验方差:偏差研究”或 Devroye 等人的“亚高斯均值估计器”(这些参考文献在理论界,如果你不熟悉经验过程和集中不等式)。

这不是一个无偏估计,但它是一致的(随着样本量的增长,您可以让偏差趋近于零)。

您可以取一个修剪后的样本(删除最高和最低值)并使用修剪后的样本的平均值作为估计值。

在已知分布的情况下,您可以使用适当的缩放来使估计偏差较小(或根本没有偏差),否则当您采用较小的样本时偏差只会减少。