为什么随着样本量的增加 t 分布会变得更正态?

机器算法验证 正态分布 t分布
2022-01-31 01:50:53

根据维基百科,我知道当样本是来自正态分布总体的独立同分布观察时,t 分布是 t 值的抽样分布。但是,我不直观地理解为什么这会导致 t 分布的形状从肥尾变为几乎完全正常。

我知道,如果您从正态分布中抽样,那么如果您抽取一个大样本,它将类似于该分布,但我不明白为什么它以它的肥尾形状开始。

3个回答

我将尝试给出一个直观的解释。

t-statistic* 有一个分子和一个分母。例如,单样本 t 检验中的统计量是

x¯μ0s/n

*(有几个,但希望这个讨论足够笼统,足以涵盖您所询问的内容)

在这些假设下,分子具有均值为 0 和一些未知标准差的正态分布。

在同一组假设下,分母是分子分布的标准差的估计值(分子上统计量的标准差)。它与分子无关。它的平方是一个卡方随机变量除以其自由度(也是 t 分布的 df)乘以σnumerator

当自由度较小时,分母往往是相当右偏的。它很有可能低于其平均值,并且相当有可能非常小。同时,它也有可能比其平均值大得多。

在正态性假设下,分子和分母是独立的。因此,如果我们从该 t 统计量的分布中随机抽取,我们将得到一个正态随机数除以从平均约为 1 的右偏分布中随机选择的第二个值。

* 不考虑正常术语

因为它在分母上,所以分母分布中的小值会产生非常大的 t 值。分母的右偏使 t 统计量重尾。分布的右尾,当在分母上时,使 t 分布的峰值比具有与t相同标准差的正态分布更尖锐

然而,随着自由度变大,分布变得更加正常,并且在其均值附近更加“紧密”。

在此处输入图像描述

因此,除以分母对分子分布形状的影响随着自由度的增加而减小。

最终——正如斯卢茨基定理可能向我们暗示的那样——分母的影响变得更像是除以一个常数,并且 t 统计量的分布非常接近正态分布。


根据分母的倒数考虑

whuber 在评论中建议,看看分母的倒数可能更有启发性。也就是说,我们可以将 t 统计量写为分子(正常)乘以分母倒数(右偏)。

例如,我们上面的 one-sample-t 统计量将变为:

n(x¯μ0)1/s

现在考虑原始的总体标准差,我们可以乘以它并除以它,如下所示:Xiσx

n(x¯μ0)/σxσx/s

第一项是标准正态。第二项(缩放的反卡方随机变量的平方根)然后通过大于或小于 1 的值缩放标准正态,“将其展开”。

在正态假设下,产品中的两项是独立的。因此,如果我们从这个 t 统计量的分布中随机抽取,我们就有一个正态随机数(乘积中的第一项)乘以来自右偏分布的第二个随机选择的值(不考虑正态项),即 '通常在 1 左右。

当 df 较大时,该值往往非常接近 1,但当 df 较小时,它相当偏斜并且散布很大,这个缩放因子的右大尾巴使尾巴相当肥:

在此处输入图像描述

@Glen_b 让您直观地了解为什么随着样本量的增加, t 统计量看起来更正常。现在,当您已经获得统计数据的分布时,我将为您提供稍微技术性的解释。

众所周知,t 统计量分布为学生 t 分布n1自由度,其中n是样本量。对应的密度如下:

(1+x2n1)n/2n1B(n12,12).

有可能表明

1n1B(n12,12)12π,

(1+x2n1)n/2exp(x2/2),

作为通过取这两个极限的乘积,您可以看到 Student-t 密度完全收敛到标准正态密度。n

我只是想分享一些有助于我作为初学者的直觉的东西(尽管它没有其他答案那么严格)。

如果Z,Z1,...,Zn是 iid 标准正常 RV,然后是以下 RV,

ZZ12+...+Zn2n

具有 t 分布n自由程度。

作为n变得非常大,使用大数定律我们可以看到分母变为1. 所以你只剩下Z这是标准正态,这就是为什么 t 分布看起来很正常n变大。

详细说明...请注意E[Z2]=1这表示卡方 RV 的期望值为 1。平方根中的分数只是样本平均值n独立同居Zi2房车。样本均值为n变得超级大将等于其中一个的期望值Zi2是其中之一。

这样n变得非常大,你只剩下Z1=Z