当方差未知时,均值不是正态分布的充分统计量吗?

机器算法验证 正态分布 充分统计
2022-03-26 20:42:21

根据此处的PDF:https ://www.math.arizona.edu/~tgk/466/sufficient.pdf ,当方差未知时,数据样本的总和对于正态分布来说不是足够的统计量。相反,总和和平方和是联合充分的统计量。现在,假设我们有一个有两个玩家的游戏。他们都知道有五个样本是从某个正态分布中抽取的。他们都不知道用于生成数据的正态分布参数。游戏的目标是估计正态分布的均值。更接近真实均值的玩家赢得 1美元(估计值和实际值之间的绝对差值是目标函数)。

第一个玩家得到了所有五个样本,而第二个玩家只得到了样本的总和(他知道其中有五个)。

如果在方差未知的情况下,单独的总和还不够统计,那么第一个玩家可以应用什么策略来使用所有五个数据点在多个此类游戏中赢钱?

作为后续,假设分布不再正常,玩家知道它是什么(不知道参数)。他们仍然必须根据所提供的信息来估计真正的平均值。是否有第一个玩家将具有重大优势的分布示例?

最后,如果两个玩家都不知道生成样本的分布是什么?现在第一个玩家有什么优势吗?

2个回答

X¯不是一个充分的统计数据,因为它不包含有关的所有信息(μ,σ2),这就是它足够的含义。

然而,X¯确实包含有关的所有信息μ在样本中,无论是否σ2是已知的。例如,X¯达到Cramèr-Rao 界。同样,如果μ不为人知,s2包含有关的所有信息σ2(虽然不是如果μ众所周知,因为(μX¯)2有关于σ2)。拥有关于参数部分的所有信息是一个比充分性更复杂的属性,尽管它已经被研究过(参见例如,Sprott 1975)。

样本范围和样本标准偏差之间存在关系。它不如使用足够的统计量,但也不是没用的。

[在一些基本测试中提到的有点虚假的经验法则,即S由除以 5 或 6 的范围很好地估计,这不是我的想法;对于正常数据,适当的除数主要取决于样本量。]

R中的模拟:对于大小样本n=10从正态分布中,样本范围除以 k=3.164约等于样本标准差。

set.seed(2021)
m = 10^6;  n=10;  rng = s = numeric(m)
for(i in 1:m) {
 x = rnorm(n, 100, 10)  # mean irrelevant
 rng[i] = diff(range(x));  s[i] = sd(x)
 }
k = rng/s;  k
[1] 3.164182

绘图点数较少:

Range = rng[1:10000];  StDev = s[1:10000]
plot(StDev, Range, pch=".")
 abline(a=0, b=k, col="green2", lwd=2)

在此处输入图像描述