在估计总体的平均值时,两种分布似乎很有用,即正态分布和 t 分布。
是否正确地说遵循任何人口的正态分布(不仅仅是正态分布),只要样本尺寸在尺寸上很重要(通过中心极限定理) ?
而且,当样本量较小时,t 服从 t 分布是否正确,但只有当总体服从正态分布时,总体才正确,因为中心极限定理不适用?
谢谢 !
在估计总体的平均值时,两种分布似乎很有用,即正态分布和 t 分布。
是否正确地说遵循任何人口的正态分布(不仅仅是正态分布),只要样本尺寸在尺寸上很重要(通过中心极限定理) ?
而且,当样本量较小时,t 服从 t 分布是否正确,但只有当总体服从正态分布时,总体才正确,因为中心极限定理不适用?
谢谢 !
这里有一个微妙的问题,在关于估计的采样分布的标准偏差的问题中没有提到。
和方差的总体的样本。当已知时,正是样本均值的标准差。在实践中,您通常不知道,因此您改为插入样本方差以使用来估计的标准差。这种区别实际上很重要——当方差未知时,必须将这种额外的不确定性纳入假设检验
是否正确地说遵循任何人口的正态分布(不仅仅是正态分布),只要样本大小在大小上是显着的(通过中心极限定理)
这几乎是正确的。对于这种情况,总体必须具有有限的方差(即没有“太长”的尾巴)。即使总体确实具有有限的方差,总体分布也会对 CLT “开始”之前的时间产生很大影响。对于较短的尾分布,这种收敛速度更快。对于长尾分布,它可能需要相当长的时间(例如,请参阅我的示例here)。
请注意,由于我们在这里讨论的是“大样本”结果,因此无论您是否知道 ,这都是正确的,因为随着样本量的增加,越来越接近真实的
而且,当样本量较小时,t 遵循 t 分布是否正确,但只有当总体服从正态分布时,总体才正确,因为中心极限定理不适用?
同样,假设我们处于“未知”世界中,当样本呈正态分布时,仅遵循分布,我认为这就是您在这里所说的。与我一开始所说的相关,如果已知,那么将具有(精确)正态分布。
总结一下:
如果已知,并且总体呈正态分布: 具有正态分布。
如果未知,并且总体呈正态分布: 具有分布。
如果总体不是正态分布但满足 CLT 的正则性要求: 是否已知,都具有近似正态分布。也就是说,随着样本量的增加,的分布会收敛到正态分布。
当从正态分布采样时,平均值的标准误差不会与卡方分布相关,而不是正态分布。当真实均值为零且数据呈正态分布时,由样本标准误差归一化的样本均值近似于 CLT正态分布。