统计学家如何确定适合不同统计检验的分布?

机器算法验证 假设检验 分布
2022-03-27 08:37:44

例如,为 ANOVA 检验计算的检验统计量与 F 分布进行比较,而 t 检验比较手段将检验统计量与 t 分布进行比较。

3个回答

您问题的完整答案将是一整学期的数学理论统计课程(如果您真的感兴趣,这对您来说是个好主意)。

但一组简短且部分的答案是:

通常我们从正态分布开始,它被发现是许多现实世界情况的合理近似值,并且中心极限定理(和其他)告诉我们,在查看简单随机样本的平均值时,它是一个更好的近似值(更大的样本量可以更好地逼近法线)。因此,如果没有理由相信正态分布不是合理的近似值,那么正态分布通常是要考虑的默认分布。尽管使用现代计算机,现在使用非参数或其他工具更容易,而且我们不需要过多地依赖法线(但历史/惯性等让我们使用基于法线的方法)。

如果您对来自标准正态分布的变量进行平方,则它遵循卡方分布。如果将卡方中的变量加在一起,则会得到另一个卡方(自由度变化),这意味着方差(缩放)遵循卡方。

如果空值为真且其他假设成立,则还得出似然比函数渐近地遵循卡方分布。

标准正态除以卡方(和一些缩放参数)的平方根遵循 t 分布,因此常见的 t 统计量(在零假设下)遵循 t。

2 个卡方的比率(除以自由度和其他考虑因素)遵循 F 分布。方差分析 F 检验基于相同方差的 2 个估计值的比率(在零值下),并且由于方差遵循卡方,因此比率遵循 F(在零值和假设成立的情况下)。

聪明的人制定了这些规则,以便我们其他人可以应用它们。完整的数学/统计课程将提供更多的历史和推导(可能还有更多的替代方案),这只是为了快速概述更常见的测试和分布。

回答您的问题的另一种方法是以下顺序思考,我想用一个简单的例子来说明:

1)与感兴趣的问题相关的原假设是什么?例如在美国,平均收入为每月 6000 美元。

2)我们如何根据可用数据来衡量与原假设的偏差?第一次尝试:T=平均收入。离 6000 越远,原假设就越不可信,我们越应该拒绝它。

3)找出分布T如果原假设为真。这种“零分布”是测试决定的基础。在我们的例子中,如果样本很大,中心极限定理告诉我们T近似正态分布,均值为 6000,标准差σ/n, 在哪里σ是美国收入的真实标准差。我们知道nσ可以通过样本标准差来估计σ^.

原则上,我们现在可以向后倾斜并使用此结果来找到测试决策。然而,因为我们统计学家很好,所以我们通常会尝试修改检验统计量,以尽可能多地保持零分布不包含与数据相关的信息。在我们的简单示例中,我们可以使用

T=(T6000)/(σ^/n)
代替T. 这个修改过的检验统计量T如果原假设为真,则总是近似标准正态。无论样本大小、假设均值和标准差如何,检验决策始终基于相同的临界值(例如±1.96)。这就是著名的单样本 Z 检验。

只有三个基于现实的分布。(1) 二项式 (2) 多项式 (3) Abraham De Moivre 的二项式逼近器。其他分布是动态范围非常有限且与现实几乎没有联系的“衍生”表达式。例子。统计学家会告诉您您的数据符合泊松分布。他实际上会相信泊松分布具有某种“独立”的现实。事实是,泊松分布近似于非常小和非常大的偏斜的二项式。既然我们都有计算机,就没有理由调用逼近器了。但是,可悲的是,旧习惯很难改掉。