为什么有人会使用 z 分数而不是 t 分数?

机器算法验证 t检验 z检验 z 统计量
2022-04-12 15:21:05

如果这似乎是一个基本的问题,请原谅我,但是再多的谷歌搜索都没有为我找到令人满意的答案。据我了解,当样本量较小时,应使用 t 分数而不是 z 分数。我还读到,在使用估计方差时应该使用 t 分数,s2,与已知的总体方差相反,σ2. 另外,我读到在以下情况下使用 t-score 很好n很大并且σ2是未知的,例如@gung 的状态:Choosing betweenz-测试和t-测试原因是当自由度很大时,t 分布非常接近正态分布,因此从 t 分数切换到 z 分数可能几乎没有什么区别。然后,最后,如果n很大,并且σ2众所周知,似乎共识是使用 z 分数,这意味着您基本上最终会得到这样的流程图:

在此处输入图像描述

(注意:这不是我的形象,我意识到“n=30" 规则相当随意)

我的问题是,为什么在样本量很大的情况下使用 z 分数并且σ2知道吗?如果要使用 t-scoreσ2已知并且n很小,并且 t 分布非常接近 z 分布n变大,那么在 z-score 和 t-score 之间的选择不会有什么区别吗?如果是这样,为什么每个人都会使用 z 分数而不是 t 分数?使用我缺少的 z 分数是否有一些优势,或者我的理解存在缺陷?

1个回答

您使用的图像是错误的。如果您知道总体标准差,那么您的统计数据服从正态分布。当您不知道时,您从样本中进行估计,而不是您的统计数据在分布时遵循,仅此而已。在您的图像和图像后面的文本中,您将“是”与“否”还原。

除此之外,当您知道使用近似值没有意义的确切分布时。当自由度很大时,t 分布趋于正态分布这一事实是一个近似值。当您有大量样本并估计样本的方差时,这种使用正态近似而不是 t 分布的习惯很可能是一个历史产物。从临界值存储在打印表中的时间开始,所有自由度的 t 分布的计算值即使不是不可能也很难找到。但现在我们有了电脑。