基础统计学课程通常建议在样本量n很大(通常超过 30 或 50)时使用正态分布来估计总体参数的平均值。学生 T 分布用于较小的样本量,以说明样本标准差的不确定性。当样本量很大时,样本标准差可以提供有关总体标准差的良好信息,从而可以进行正态分布估计。我明白了。
但是,当您可以准确地获得置信区间时,为什么还要使用估计值呢?不管样本量如何,如果它只是对您可以通过 T 分布准确得到的东西的估计,那么使用正态分布有什么意义呢?
基础统计学课程通常建议在样本量n很大(通常超过 30 或 50)时使用正态分布来估计总体参数的平均值。学生 T 分布用于较小的样本量,以说明样本标准差的不确定性。当样本量很大时,样本标准差可以提供有关总体标准差的良好信息,从而可以进行正态分布估计。我明白了。
但是,当您可以准确地获得置信区间时,为什么还要使用估计值呢?不管样本量如何,如果它只是对您可以通过 T 分布准确得到的东西的估计,那么使用正态分布有什么意义呢?
只是为了澄清与标题的关系,我们没有使用 t 分布来估计平均值(至少在点估计的意义上),而是为其构造一个区间。
但是,当您可以准确地获得置信区间时,为什么还要使用估计值呢?
这是一个很好的问题(只要我们不要太坚持“精确”,因为它是精确t 分布的假设实际上并不成立)。
“当总体标准差 (σ) 未知且样本量较小 (n<30) 时,您必须在处理问题时使用 t 分布表”
当总体标准差未知时(即使 n>30),为什么人们不一直使用 T 分布?
我认为这些建议充其量是具有误导性的。在某些情况下,当自由度远大于此时,仍应使用 t 分布。
法线是合理的近似值取决于多种因素(因此取决于情况)。但是,由于(使用计算机)仅使用一点也不困难,即使 df 非常大,您也不得不想知道为什么需要担心在 n=30 时做一些不同的事情。
如果样本量真的很大,它不会对置信区间产生明显的影响,但我认为 n=30 并不总是足够接近“真的很大”。
可能是有意义的——那就是当您的数据显然不满足获得 t 分布的条件时,但您仍然可以争论均值的近似正态性(如果相当大)。然而,在这些情况下,t 通常在实践中是一个很好的近似值,并且可能在某种程度上“更安全”。[在这种情况下,我可能倾向于通过模拟进行调查。]
这是一个历史的时代错误。统计中有很多。
如果您没有计算机,则很难使用 t 分布,而使用正态分布则容易得多。一旦样本量变大,它们两个分布就会变得相似(“大”有多大是另一个问题)。
因为在任何一种情况下(使用正态分布或 t 分布),累积分布值都是从数值上得出的(对于的积分或 t 密度的积分没有封闭形式) . 自由度为 n 的 t 分布的累积分布函数趋向于标准正态的 CDF,如。如果 n 很大,则近似积分的数值误差小于用正态密度替换 t 密度所产生的误差。
换句话说,“精确”的 t 值不是“精确的”,在近似误差范围内,该值与标准正态的 CDF 值相同。