为什么这段摘录说标准差的无偏估计通常不相关?

机器算法验证 贝叶斯 统计学意义 数理统计 标准差 标准错误
2022-02-15 02:14:18

我正在阅读标准偏差的无偏估计的计算和我阅读的来源

(...) 除了在某些重要情况下,该任务与统计应用的相关性很小,因为标准程序避免了它的需要,例如使用显着性检验和置信区间,或使用贝叶斯分析。

我想知道是否有人可以阐明此陈述背后的原因,例如置信区间是否使用标准偏差作为计算的一部分?因此,置信区间不会受到有偏差的标准偏差的影响吗?

编辑:

感谢到目前为止的答案,但我不太确定我是否遵循了他们的一些推理,所以我将添加一个非常简单的示例。关键是,如果来源是正确的,那么我对示例的结论就有问题,我希望有人指出 p 值如何依赖于标准偏差。

假设一名研究人员希望测试他或她所在城市五年级学生的平均分数是否与全国平均数 76 不同,显着性水平为 0.05。研究人员随机抽取了 20 名学生的分数。样本平均值为 80.85,样本标准差为 8.87。这意味着:t = (80.85-76)/(8.87/sqrt(20)) = 2.44。然后使用 t 表计算 2.44 和 19 df 的双尾概率值为 0.025。这低于我们的显着性水平 0.05,因此我们拒绝原假设。

所以在这个例子中,p 值(也许是你的结论)不会根据你如何估计你的样本标准差而改变吗?

3个回答

我同意 Glen_b 的观点。也许我可以添加几句话来使这一点更清楚。如果数据来自方差未知的正态分布(独立同分布情况),则 t 统计量是关键量用于生成置信区间并进行假设检验。对于该推断而言,唯一重要的是它在原假设(用于确定临界值)和备选方案(用于确定功效和样本)下的分布。这些分别是中心和非中心 t 分布。现在考虑一下单样本问题,t 检验甚至具有作为正态分布均值检验的最佳特性。现在样本方差是总体方差的无偏估计量,但其平方根是总体标准差的有偏估计量。这个 BIASED 估计量进入关键量的分母并不重要。现在它确实发挥了作用,因为它是一个一致的估计器。这就是允许 t 分布在样本量趋于无穷大时接近标准正态分布的原因。但偏向于任何固定的n不影响测试的好属性。

在我看来,在介绍性统计课程中过分强调了公正性。估计量的准确性和一致性是值得强调的真实属性。

对于应用参数或非参数方法的其他问题,标准偏差的估计甚至不会进入公式。

考虑一个基于关键量计算的区间,如 t 统计量。标准差估计量的平均值并没有真正包含在内 - 区间基于统计量的分布。因此,就这一点而言,该声明是正确的。

解释总是部分推测,但我认为隐含的意思是,通常你可以得到你想要的结果,而无需明确估计标准偏差。换句话说,我认为作者指的是使用标准差估计而不是有偏估计的情况。

例如,如果您可以构建统计量整体分布的估计值,则可以在不使用标准差的情况下计算置信区间。事实上,对于许多(非正态)分布,标准偏差本身(和平均值)不足以计算置信区间的估计值。在其他情况下,例如符号检验,您也不需要估计标准差。

(当然,构建完整分布的无偏估计并非易事,在贝叶斯统计中,通过先验显式引入偏差实际上很常见。)