一个拥有非正态分布数据的统计学家怎么能比一个只有平均值的统计学家猜得好呢?

机器算法验证 意思是 充分统计 游戏
2022-01-19 00:34:00

假设我们有一个有两个玩家的游戏。他们都知道从某个分布(非正态分布)中抽取了五个样本。他们都不知道用于生成数据的分布参数。游戏的目标是估计分布的均值。更接近真实均值的玩家赢得 1美元(估计值和实际值之间的绝对差值是目标函数)。如果分布的平均值达到,则猜大数的玩家获胜,而对于,猜小数的玩家获胜。

第一个玩家得到了所有五个样本,而第二个玩家只得到了样本的总和(他们知道其中有五个)。

有哪些不公平游戏且第一个玩家具有优势的分布示例?我猜正态分布不是其中之一,因为样本均值是真实均值的充分统计量。

注意:我在这里问了一个类似的问题:当方差未知时,对于正态分布,平均值不是一个足够的统计量?关于正态分布,有人建议我问一个新的非正态分布。


编辑:具有均匀分布的两个答案。如果人们知道的话,我很想听听更多的例子。

3个回答

之间的均匀分布,猜测样本均值的玩家会比猜测的玩家做得更差(样本最大值对于下界为 0 的均匀分布)。02μ35max(xi)

在这种特殊情况下,可以通过数字进行验证。不失一般性,我们在模拟中事实证明,大约 2/3 的时间,3/5 max 估计器做得更好。μ=0.5

这是一个演示这一点的 Python 模拟。

import numpy as np
Ntrials = 1000000
xs = np.random.random((5,Ntrials))
sample_mean_error = np.abs(xs.mean(axis=0)-0.5)
better_estimator_error = np.abs(0.6*xs.max(axis=0)-0.5)
print((sample_mean_error > better_estimator_error).sum())

观测值的总和不足以估计均匀总体的平均值。中档对绝对误差的期望值较小。

通过 R 中的模拟进行近似:

    set.seed(2021)
    a = replicate(10^6, mean(runif(5)))
    mr = replicate(10^6, mean(range(runif(5))))
    mean(a);  mean(mr)
    [1] 0.5000905
    [1] 0.5000926
    mean(abs(a-.5)); mean(abs(mr-.5))
    [1] 0.1040754
    [1] 0.0833201

在此处输入图像描述

    par(mfrow=c(2,1))
    hdr1 = "UNIF(0,1): Simulated Dist'n of Mean of 5"
    hist(a, prob=T, xlim=0:1, br=30, col="skyblue2", main=hdr1)
    hdr2 = "UNIF(0,1): Sim. Dist'n of Midrange of 5"
    hist(mr, prob=T, xlim=0:1, br=30, col="skyblue2", main=hdr2)
    par(mfrow=c(1,1))

每个评论的注释:使用均方误差而不是绝对误差。此外,对于可比单位,RMSE。

    mean((a-.5)^2); mean((mr-.5)^2)
    [1] 0.01665874
    [1] 0.01190478

    sqrt(mean((a-.5)^2)); sqrt(mean((mr-.5)^2))
    [1] 0.1290687
    [1] 0.109109

值得补充的是,虽然您通常可以为低维参数族做得更好,但如果分布完全未知(或者除了知道它具有有限均值之外完全未知) ,您就不能做得更好。均值是唯一适用于所有分布的均值估计量。