机器算法验证 - “逆转”夏皮罗-威尔克 - 吾爱随笔录

“逆转”夏皮罗-威尔克

机器算法验证假设检验拟合优度正态假设等价

2022-03-16 02:27:04

Sharipo-Wilk 检验，根据维基百科，检验零假设 ( $H_0$ ) “人口呈正态分布”。

我正在寻找一个类似的正态性检验 $H_0$ “人口不是正态分布的”。

有这样的测试，我想计算一个 $p$ -拒绝的值 $H_0$ 在显着性水平 $\alpha$ 当且当 $p < \alpha$ ; 证明我的人口是正态分布的。

请注意，使用 Sharipo-Wilk 测试并接受 $H_0$ 当且当 $p > \alpha$ 是一种不正确的方法，因为它的字面意思是“我们没有足够的证据证明 H0 不成立”。

相关线程 -的含义 $p$ -value，正态性测试没用吗？，但我看不到我的问题的解决方案。

问题：我应该使用哪种测试？它是在 R 中实现的吗？

3个回答

没有什么可以证明您的数据是正态分布的。只有测试表明您的数据不是正态分布的。因此，有像 Shapiro-Wilk 这样的测试，其中 $H_0\!: \rm normal$ （还有很多其他的），但没有检验，其中 null 是总体不正常，而替代假设是总体正常。

您所能做的就是弄清楚您所关心的偏离常态的类型（例如，偏度），以及该偏差必须有多大才能让您感到困扰。然后，您可以测试数据中与完美正态性的偏差是否小于临界值。有关一般想法的更多信息，请在此处阅读我的答案：为什么统计学家说非显着结果意味着“您不能拒绝零”而不是接受零假设？

我想计算一个 p 值来拒绝 H0 在显着性水平 α iff p<α; 证明我的人口是正态分布的。

当数据由一系列加性 iid 事件生成时，就会出现正态分布（参见下面的梅花形图像）。这意味着没有反馈也没有相关性，这听起来像是引导数据的过程吗？如果不是，那可能是不正常的。

在您的情况下可能会发生这种类型的过程。您可以“证明”它的最接近方法是收集足够的数据以排除人们可以提出的任何其他分布（这可能不切实际）。另一种方法是从一些理论和一些其他预测中推断出正态分布。如果数据与所有数据一致并且没有人能想到另一种解释，那么这将是支持正态分布的良好证据。

https://en.wikipedia.org/wiki/Bean_machine

现在，如果您不期望任何特定的分布先验，使用正态分布来总结数据可能仍然是合理的，但要认识到这本质上是出于无知的选择（https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy）。在这种情况下，您不想知道总体是否呈正态分布，而是想知道正态分布是否是下一步的合理近似值。

在这种情况下，您应该提供您的数据（或生成的类似数据）以及您打算如何处理它的描述，然后问“在这种情况下假设正常性会以什么方式误导我？”

您将永远无法“证明”数据中的正态假设。仅提供反对它的证据作为假设。Shapiro-Wilk 检验是一种方法，它一直用于证明正态性假设的合理性。原因是你从假设常态开始。然后你会问，我的数据是否表明我在做一个愚蠢的假设？所以你继续用 Shapiro-Wilk 测试它。如果您未能拒绝零假设，那么数据并不表明您在做出愚蠢的假设。

请注意，人们在实践中一直使用这种类似的逻辑——不仅仅是在夏皮罗-威尔克测试的背景下。他们想用线性回归，看一个 $Y, X$ 散点图，看看线性回归是否是一个愚蠢的想法。或者，他们假设异方差并绘制误差项，看看这是否是一个愚蠢的想法。

其它你可能感兴趣的问题

上一篇高效/快速的马氏距离计算下一篇如何解释 lavaan 输出？