对于 t 检验,根据大多数文本,假设总体数据是正态分布的。我不明白为什么会这样。t检验不是只要求样本均值的抽样分布是正态分布的,而不是总体吗?
如果 t 检验最终只需要抽样分布的正态性,那么总体可以看起来像任何分布,对吧?只要有合理的样本量。这不是中心极限定理所说的吗?
(我在这里指的是单样本或独立样本 t 检验)
对于 t 检验,根据大多数文本,假设总体数据是正态分布的。我不明白为什么会这样。t检验不是只要求样本均值的抽样分布是正态分布的,而不是总体吗?
如果 t 检验最终只需要抽样分布的正态性,那么总体可以看起来像任何分布,对吧?只要有合理的样本量。这不是中心极限定理所说的吗?
(我在这里指的是单样本或独立样本 t 检验)
对于 t 检验,根据大多数文本,假设总体数据是正态分布的。我不明白为什么会这样。t检验不是只要求样本均值的抽样分布是正态分布的,而不是总体吗?
t 统计量由两个量的比率组成,都是随机变量。它不只是由一个分子组成。
要使 t 统计量具有 t 分布,您不仅需要样本均值具有正态分布。您还需要:
分母中的 *
分子和分母是独立的。
*(的值取决于哪个测试——在一个样本中,我们有)
要使这三件事真正成立,您需要原始数据是正态分布的。
如果 t 检验最终只需要抽样分布的正态性,那么总体可以看起来像任何分布,对吧?
让我们暂时假设 iid。为了让 CLT 持有人口,必须符合条件...... - 人口必须具有适用于 CLT 的分布。所以不,因为存在 CLT 不适用的人口分布。
只要有合理的样本量。这不是中心极限定理所说的吗?
不,CLT 实际上只字未提“合理的样本量”。
它实际上根本没有说明在任何有限样本量下会发生什么。
我现在正在考虑一个特定的分布。这是 CLT确实适用的一种。但是在处,样本均值的分布显然是非正态的。然而,我怀疑人类历史上的任何样本都曾有过如此多的价值。那么-在重言式之外-“合理的 ”是什么意思?
所以你有两个问题:
A. 人们通常归因于 CLT 的影响——在小/中等样本量下越来越接近样本均值分布的正态性——实际上并未在 CLT 中说明**。
B. “分子中与正常相差不远的东西”不足以获得具有 t 分布的统计量
**(像 Berry-Esseen 定理这样的东西会让你更像人们在看到增加样本量对样本均值分布的影响时所看到的。)
CLT 和斯卢茨基定理一起给你(只要他们所有的假设都成立)当时,t 统计量的分布接近标准正态。它没有说明任何给定的有限是否足以满足某些目的。
刚收到一个与此相关的面试问题,并且在我的脑海中出现了同样的问题(同时提供了我的答案)。做了一点阅读,发现以下解释(摘自此处)为我提供了最好的直觉:
根据中心极限定理,如果样本量足够大,无论总体分布如何,样本均值的分布都趋于服从正态分布[2]。出于这个原因,有一些书籍建议如果每组的样本量足够大,则可以在不进行正态性检验的情况下应用 t 检验。严格来说,这是不正确的。中心极限定理虽然保证了样本均值的正态分布,但不能保证样本在总体中的正态分布。t 检验的目的是比较代表群体的某些特征,当总体呈正态分布时,平均值变得具有代表性。这就是满足正态性假设在 t 检验中必不可少的原因。所以,即使样本量足够,也建议先检查正态性检验的结果。众所周知的正态性检验方法包括 Shapiro-Wilks 检验和 Kolmogorov-Smirnov 检验。