t 分布和标准正态分布有何不同，为什么更多地使用 t 分布？

机器算法验证假设检验数理统计置信区间推理 t分布

2022-03-31 21:44:51

对于统计推断（例如，假设检验或计算置信区间），为什么我们使用 t 分布而不是标准正态分布？我的课从标准正态分布开始，然后转向 t 分布，我不完全确定为什么。是因为 t 分布可以 a）处理小样本量（因为它更加强调尾部）还是 b）对非正态分布的样本更稳健？

2个回答

对于刚接触该材料的学生来说，正态分布（几乎可以肯定会在课程的后面章节中回归）比t分布更容易激发。您学习t分布的原因或多或少是出于第一个原因：t分布采用单个参数——样本量减一——并且在以下情况下更正确地解释了由于（小）样本量而不是正态分布导致的不确定性假设真实方差未知，对正态分布数据的样本均值进行推断。

随着样本量的增加，t分布和标准正态分布在偏离正态性方面都大致相同（随着样本量的增加，t分布收敛到标准正态分布）。非参数测试（我在介绍统计课程的一半左右开始教授）通常比t分布或正态分布对非正态性更稳健。

最后，您可能会在课程结束时学习许多不同分布的检验和置信区间（例如F、、对分布进行排序——至少在它们的表p值中）。 $\chi^{2}$

推理中使用 t 分布而不是正态分布的原因是，一些估计量的理论分布只有在标准差已知时才是正态（高斯）分布，而在未知时，理论分布是学生 t。

我们很少知道标准差。通常，我们从样本中进行估计，因此对于许多估计器来说，理论上使用学生 t 分布而不是正态分布更可靠。

一些估计量是一致的，即用外行的话来说，当样本量增加时，它们会变得更好。当样本量很大时，学生 t 变得正常。

示例：样本均值

考虑样本的平均值。我们可以使用通常的平均估计器来估计它：，您可以将其称为样本均值。 $\mu$ $x_1,x_2,\dots,x_n$ $\bar x=\frac 1 n\sum_{i=1}^nx_i$

如果我们想对均值做出推断陈述，例如是否为真均值，我们可以使用样本均值但我们需要知道它的分布是什么。事实证明，如果我们知道，那么样本均值将根据高斯分布在真实均值周围：，对于足够大的 $\mu<0$ $\bar x$ $\sigma$ $x_i$ $\bar x\sim\mathcal N(\mu,\sigma^2/n)$ $n$

问题是我们很少知道，但我们可以使用其中一个估计器从样本中估计它的值。在这种情况下，样本均值的分布不再是高斯分布，而是更接近于学生 t 分布。 $\sigma$ $\hat\sigma$

其它你可能感兴趣的问题

上一篇带有交叉验证的 KNN 参数调整：得分抽奖下一篇在 VAE 中采样 z