的分布什么时候是正常的,什么时候是?(X¯¯¯− μ ) / S E (X¯¯¯)(x¯−μ)/SE(x¯)吨t

机器算法验证 正态分布 t检验 t分布
2022-03-16 08:44:23

在估计总体的平均值时,两种分布似乎很有用,即正态分布和 t 分布。

是否正确地说遵循任何人口的正态分布(不仅仅是正态分布),只要样本尺寸在尺寸上很重要(通过中心极限定理) ?t=(x¯μ)/SE(x¯)

而且,当样本量较小时,t 服从 t 分布是否正确,但只有当总体服从正态分布时,总体才正确,因为中心极限定理不适用?

谢谢 !

2个回答

这里有一个微妙的问题,在关于估计的采样分布的标准偏差的问题中没有提到。x¯

和方差的总体的样本已知时,正是样本均值的标准差。在实践中,您通常不知道,因此您改为插入样本方差以使用来估计的标准差。这种区别实际上很重要——当方差未知时,必须将这种额外的不确定性纳入假设检验μσ2σ2

SE(x¯)=σ/n
σ2σ^
SE(x¯)=σ^/n
x¯. 这就是为什么即使样本是正态分布的,未知分布(尾部较长)而不是正态分布。tσ

是否正确地说遵循任何人口的正态分布(不仅仅是正态分布),只要样本大小在大小上是显着的(通过中心极限定理)t=(x¯μ)/SE(x¯)

这几乎是正确的。对于这种情况,总体必须具有有限的方差(即没有“太长”的尾巴)。即使总体确实具有有限的方差,总体分布也会对 CLT “开始”之前的时间产生很大影响。对于较短的尾分布,这种收敛速度更快。对于长尾分布,它可能需要相当长的时间(例如,请参阅我的示例here)。

请注意,由于我们在这里讨论的是“大样本”结果,因此无论您是否知道 ,这都是正确的,因为随着样本量的增加,越来越接近真实的σσ^σ

而且,当样本量较小时,t 遵循 t 分布是否正确,但只有当总体服从正态分布时,总体才正确,因为中心极限定理不适用?

同样,假设我们处于“未知”世界中,当样本呈正态分布时,仅遵循分布,我认为这就是您在这里所说的。与我一开始所说的相关,如果已知,那么将具有(精确)正态分布。σttσt

总结一下:

  • 如果已知,并且总体呈正态分布:σ 具有正态分布。t

  • 如果未知,并且总体呈正态分布:σ 具有分布。tt

  • 如果总体不是正态分布但满足 CLT 的正则性要求: 是否已知,都具有近似正态分布。也就是说,随着样本量的增加,的分布会收敛到正态分布。tσt

当从正态分布采样时,平均值的标准误差不会与卡方分布相关,而不是正态分布。当真实均值为零且数据呈正态分布时,由样本标准误差归一化的样本均值近似于 CLT正态分布