对于统计推断(例如,假设检验或计算置信区间),为什么我们使用 t 分布而不是标准正态分布?我的课从标准正态分布开始,然后转向 t 分布,我不完全确定为什么。是因为 t 分布可以 a)处理小样本量(因为它更加强调尾部)还是 b)对非正态分布的样本更稳健?
t 分布和标准正态分布有何不同,为什么更多地使用 t 分布?
机器算法验证
假设检验
数理统计
置信区间
推理
t分布
2022-03-31 21:44:51
2个回答
对于刚接触该材料的学生来说,正态分布(几乎可以肯定会在课程的后面章节中回归)比t分布更容易激发。您学习t分布的原因或多或少是出于第一个原因:t分布采用单个参数——样本量减一——并且在以下情况下更正确地解释了由于(小)样本量而不是正态分布导致的不确定性假设真实方差未知,对正态分布数据的样本均值进行推断。
随着样本量的增加,t分布和标准正态分布在偏离正态性方面都大致相同(随着样本量的增加,t分布收敛到标准正态分布)。非参数测试(我在介绍统计课程的一半左右开始教授)通常比t分布或正态分布对非正态性更稳健。
最后,您可能会在课程结束时学习许多不同分布的检验和置信区间(例如F、、对分布进行排序——至少在它们的表p值中)。
推理中使用 t 分布而不是正态分布的原因是,一些估计量的理论分布只有在标准差已知时才是正态(高斯)分布,而在未知时,理论分布是学生 t。
我们很少知道标准差。通常,我们从样本中进行估计,因此对于许多估计器来说,理论上使用学生 t 分布而不是正态分布更可靠。
一些估计量是一致的,即用外行的话来说,当样本量增加时,它们会变得更好。当样本量很大时,学生 t 变得正常。
示例:样本均值
考虑样本的平均值。我们可以使用通常的平均估计器来估计它:,您可以将其称为样本均值。
如果我们想对均值做出推断陈述,例如是否为真均值,我们可以使用样本均值但我们需要知道它的分布是什么。事实证明,如果我们知道,那么样本均值将根据高斯分布在真实均值周围:,对于足够大的
问题是我们很少知道,但我们可以使用其中一个估计器从样本中估计它的值。在这种情况下,样本均值的分布不再是高斯分布,而是更接近于学生 t 分布。
其它你可能感兴趣的问题