机器算法验证 - 统计学家如何确定适合不同统计检验的分布？ - 吾爱随笔录

统计学家如何确定适合不同统计检验的分布？

机器算法验证假设检验分布

2022-03-27 08:37:44

例如，为 ANOVA 检验计算的检验统计量与 F 分布进行比较，而 t 检验比较手段将检验统计量与 t 分布进行比较。

3个回答

您问题的完整答案将是一整学期的数学理论统计课程（如果您真的感兴趣，这对您来说是个好主意）。

但一组简短且部分的答案是：

通常我们从正态分布开始，它被发现是许多现实世界情况的合理近似值，并且中心极限定理（和其他）告诉我们，在查看简单随机样本的平均值时，它是一个更好的近似值（更大的样本量可以更好地逼近法线）。因此，如果没有理由相信正态分布不是合理的近似值，那么正态分布通常是要考虑的默认分布。尽管使用现代计算机，现在使用非参数或其他工具更容易，而且我们不需要过多地依赖法线（但历史/惯性等让我们使用基于法线的方法）。

如果您对来自标准正态分布的变量进行平方，则它遵循卡方分布。如果将卡方中的变量加在一起，则会得到另一个卡方（自由度变化），这意味着方差（缩放）遵循卡方。

如果空值为真且其他假设成立，则还得出似然比函数渐近地遵循卡方分布。

标准正态除以卡方（和一些缩放参数）的平方根遵循 t 分布，因此常见的 t 统计量（在零假设下）遵循 t。

2 个卡方的比率（除以自由度和其他考虑因素）遵循 F 分布。方差分析 F 检验基于相同方差的 2 个估计值的比率（在零值下），并且由于方差遵循卡方，因此比率遵循 F（在零值和假设成立的情况下）。

聪明的人制定了这些规则，以便我们其他人可以应用它们。完整的数学/统计课程将提供更多的历史和推导（可能还有更多的替代方案），这只是为了快速概述更常见的测试和分布。

回答您的问题的另一种方法是以下顺序思考，我想用一个简单的例子来说明：

1）与感兴趣的问题相关的原假设是什么？例如在美国，平均收入为每月 6000 美元。

2）我们如何根据可用数据来衡量与原假设的偏差？第一次尝试： $T =$ 平均收入。离 6000 越远，原假设就越不可信，我们越应该拒绝它。

3）找出分布 $T$ 如果原假设为真。这种“零分布”是测试决定的基础。在我们的例子中，如果样本很大，中心极限定理告诉我们 $T$ 近似正态分布，均值为 6000，标准差 $\sigma/\sqrt{n}$ ，在哪里 $\sigma$ 是美国收入的真实标准差。我们知道 $n$ 和 $\sigma$ 可以通过样本标准差来估计 $\hat \sigma$ .

原则上，我们现在可以向后倾斜并使用此结果来找到测试决策。然而，因为我们统计学家很好，所以我们通常会尝试修改检验统计量，以尽可能多地保持零分布不包含与数据相关的信息。在我们的简单示例中，我们可以使用

T^{'} = (T - 6000) / (\hat{σ} / \sqrt{n})

$T' = (T-6000)/(\hat \sigma/\sqrt{n})$ 代替

T

$T$ . 这个修改过的检验统计量

T^{'}

$T'$ 如果原假设为真，则总是近似标准正态。无论样本大小、假设均值和标准差如何，检验决策始终基于相同的临界值（例如

\pm 1.96

$\pm 1.96$ ）。这就是著名的单样本 Z 检验。

只有三个基于现实的分布。(1) 二项式 (2) 多项式 (3) Abraham De Moivre 的二项式逼近器。其他分布是动态范围非常有限且与现实几乎没有联系的“衍生”表达式。例子。统计学家会告诉您您的数据符合泊松分布。他实际上会相信泊松分布具有某种“独立”的现实。事实是，泊松分布近似于非常小和非常大的偏斜的二项式。既然我们都有计算机，就没有理由调用逼近器了。但是，可悲的是，旧习惯很难改掉。

其它你可能感兴趣的问题

上一篇二进制数据的配对 t 检验下一篇残差的非正态性