何时使用 t 分布而不是正态分布?

数据挖掘 统计数据 分配
2022-02-11 19:30:29

根据学生的 t 分布wiki 文章,使用 t 分布代替正态分布“在样本量较小总体标准差未知的情况下估计正态分布总体的平均值时”。

未知的总体标准偏差意味着它必须从样本本身进行估计,这对于小样本量是不准确的。根据Z 检验wiki 文章,样本大小 >= 30 意味着使用正态分布,样本大小 < 30 意味着使用 t 分布。t-test供参考。)这个假设是常见的最佳实践吗?这与样本量确定(均值估计)有何关系?

2个回答

根据定义,学生 t 分布是取自正态分布总体的样本的平均估计值分布。

T 分布尾部较粗,随着自由度的增加而变细,这又取决于样本分布。因此,在某些时候,它非常类似于正态分布,并且可以被它取代。

据我记得(尽管不是 100% 确定),这个 30 阈值的样本大小对于 α=0.05(广泛接受的 I 类错误级别)的 t 检验是有效的。虽然,你们中的 α 小得多(例如 0.0001),但您需要更深入地了解分布的尾部,其中 t 分布和正态分布之间的差异将更加明显,因此您最好使用 t 而不是正态分布对于更大的样本量。

另一个问题是标准偏差(或者更确切地说,我们在这里谈论的是标准误差)。正态分布(因此是 z 检验)需要了解总体标准差。如果您不知道,则需要从样本中对其进行估计,这显然只是对总体标准差的估计。学生 t 分布可以更好地处理估计的标准差,因为将其与正态分布(应该只有总体标准差)一起使用会产生额外的错误(您将错误地估计您的 I(和 Ii)类错误)。

因此,答案是,如果您不知道总体均值(现实世界中几乎总是如此),请使用 t 分布。如果您知道总体均值,请注意 30 个样本阈值。取决于您的应用程序,它可能会更高。

因此,当样本量较小时,我们在正态分布上使用 t 分布,因为答案更准确。T 分布通常用于较小的样本量,因此可以回答您的问题,这是一个很好的做法。因为随着样本量的增加,t 分布曲线无论如何都开始类似于正态分布曲线。当给定数据集的总体分布是正态的时,我们无论如何都会使用正态分布。而 T 统计量 =(样本均值 - 假设均值)/样本标准误差