t 分布和标准正态分布有何不同,为什么更多地使用 t 分布?

机器算法验证 假设检验 数理统计 置信区间 推理 t分布
2022-03-31 21:44:51

对于统计推断(例如,假设检验或计算置信区间),为什么我们使用 t 分布而不是标准正态分布?我的课从标准正态分布开始,然后转向 t 分布,我不完全确定为什么。是因为 t 分布可以 a)处理小样本量(因为它更加强调尾部)还是 b)对非正态分布的样本更稳健?

2个回答

对于刚接触该材料的学生来说,正态分布(几乎可以肯定会在课程的后面章节中回归)比t分布更容易激发。您学习t分布的原因或多或少是出于第一个原因:t分布采用单个参数——样本量减一——并且在以下情况下更正确地解释了由于(小)样本量而不是正态分布导致的不确定性假设真实方差未知,对正态分布数据的样本均值进行推断。

随着样本量的增加,t分布和标准正态分布在偏离正态性方面都大致相同(随着样本量的增加,t分布收敛到标准正态分布)。非参数测试(我在介绍统计课程的一半左右开始教授)通常比t分布或正态分布对非正态性更稳健。

最后,您可能会在课程结束时学习许多不同分布的检验和置信区间(例如F、对分布进行排序——至少在它们的表p值中)。χ2

推理中使用 t 分布而不是正态分布的原因是,一些估计量的理论分布只有在标准差已知时才是正态(高斯)分布,而在未知时,理论分布是学生 t。

我们很少知道标准差。通常,我们从样本中进行估计,因此对于许多估计器来说,理论上使用学生 t 分布而不是正态分布更可靠。

一些估计量是一致的,即用外行的话来说,当样本量增加时,它们会变得更好。当样本量很大时,学生 t 变得正常。

示例:样本均值

考虑样本的平均值我们可以使用通常的平均估计器来估计它:,您可以将其称为样本均值。μx1,x2,,xnx¯=1ni=1nxi

如果我们想对均值做出推断陈述,例如是否为真均值,我们可以使用样本均值但我们需要知道它的分布是什么。事实证明,如果我们知道那么样本均值将根据高斯分布在真实均值周围:,对于足够大的μ<0x¯σxix¯N(μ,σ2/n)n

问题是我们很少知道,但我们可以使用其中一个估计器从样本中估计它的值。在这种情况下,样本均值的分布不再是高斯分布,而是更接近于学生 t 分布。σσ^