我指的是这个视频讲座来计算置信区间。但是,我有些困惑。这家伙正在使用 -statistics 进行计算。但是,我认为它应该是一个统计量。我们没有得到总体的真实标准差。我们正在使用样本标准差来估计真实的标准差。
那么为什么他对置信区间采取正态分布而不是呢?
我指的是这个视频讲座来计算置信区间。但是,我有些困惑。这家伙正在使用 -statistics 进行计算。但是,我认为它应该是一个统计量。我们没有得到总体的真实标准差。我们正在使用样本标准差来估计真实的标准差。
那么为什么他对置信区间采取正态分布而不是呢?
当我参加我的第一个统计课程时(在恐龙之后,但当真正的计算机仍然占据整个房间时)我们被教导如果自由度超过 30 则使用 z 表,部分原因是书中的 t 表只上升到 30 个自由度,如果你看一下 t 表,你会发现在 28 个自由度左右的某个地方,你会得到与 z 表相同的结果,直到 2 位有效数字(当手动完成所有这些操作时,我们倾向于更频繁地四舍五入)。也许主持人仍然是那所学校。
你是对的,如果你使用样本标准差来测试平均值,那么你真的应该使用 t 分布,而不管大小(这几天更容易做到),并且只在你使用 z (标准正态)时知道总体标准差,但出于实际目的,如果样本量很大,您通常不会看到有意义的差异。
你是对的,它应该是一个t分布。但由于样本量为 36(即 > 20),因此 z 分布也是合适的。请记住,随着样本量的增加,t 分布在形状上变得更类似于 z 分布。
我很难弄清楚可汗是否只是过度简化了视频中的内容,或者他只是错了。我不得不说后者,但问题不在于z或t问题。他将计算出的置信区间称为置信区间,然后说他有 92% 的把握总体均值落在给定范围内。这根本不是您从置信区间得出的结论……不幸的是。
然后我回到t与z的问题,开始怀疑他是否在那里犯了错误。我认为这可能不是因为他确实声明如果样本较小,您必须进行更正。因此,其他回答者可能对此是正确的。他只是使用z,因为他已经介绍了它,并且它与 36 的 n 足够接近。我不打算浏览所有视频,但我想他稍后会介绍t分布,希望是下一个。
很遗憾,可汗学院在许多统计数据领域都存在错误……但也许我只是有这种感觉,因为我只被指向有问题的视频。