何时使用 t 分布而不是正态分布?
数据挖掘
统计数据
分配
2022-02-11 19:30:29
2个回答
根据定义,学生 t 分布是取自正态分布总体的样本的平均估计值分布。
T 分布尾部较粗,随着自由度的增加而变细,这又取决于样本分布。因此,在某些时候,它非常类似于正态分布,并且可以被它取代。
据我记得(尽管不是 100% 确定),这个 30 阈值的样本大小对于 α=0.05(广泛接受的 I 类错误级别)的 t 检验是有效的。虽然,你们中的 α 小得多(例如 0.0001),但您需要更深入地了解分布的尾部,其中 t 分布和正态分布之间的差异将更加明显,因此您最好使用 t 而不是正态分布对于更大的样本量。
另一个问题是标准偏差(或者更确切地说,我们在这里谈论的是标准误差)。正态分布(因此是 z 检验)需要了解总体标准差。如果您不知道,则需要从样本中对其进行估计,这显然只是对总体标准差的估计。学生 t 分布可以更好地处理估计的标准差,因为将其与正态分布(应该只有总体标准差)一起使用会产生额外的错误(您将错误地估计您的 I(和 Ii)类错误)。
因此,答案是,如果您不知道总体均值(现实世界中几乎总是如此),请使用 t 分布。如果您知道总体均值,请注意 30 个样本阈值。取决于您的应用程序,它可能会更高。
因此,当样本量较小时,我们在正态分布上使用 t 分布,因为答案更准确。T 分布通常用于较小的样本量,因此可以回答您的问题,这是一个很好的做法。因为随着样本量的增加,t 分布曲线无论如何都开始类似于正态分布曲线。当给定数据集的总体分布是正态的时,我们无论如何都会使用正态分布。而 T 统计量 =(样本均值 - 假设均值)/样本标准误差
其它你可能感兴趣的问题