正态分布的偏度和峰度值范围

机器算法验证 正态分布 偏度 峰度
2022-03-18 05:54:01

我想知道数据被认为是正态分布的偏度峰度值的范围是多少。

我已经阅读了很多论点,而且大多数情况下我得到了混淆的答案。有人说偏斜(1,1)(2,2)因为峰度是正态分布的可接受范围。有人说(1.96,1.96)因为偏度是可以接受的范围。我在这里找到了详细的讨论:关于这个问题的数据的正态分布的偏度和峰度的可接受范围是多少。但我找不到任何决定性的陈述。

决定这样一个区间的依据是什么?这是主观的选择吗?或者这些间隔背后是否有任何数学解释?

3个回答

原始帖子遗漏了几个要点:(1)没有“数据”可以正态分布。数据必然是离散的。有效的问题是,“产生数据的过程是一个正态分布的过程吗?” 但是(2)第二个问题的答案总是“否”,无论任何基于数据的统计测试或其他评估给你什么。正态分布过程产生具有无限连续性、完美对称性和在标准偏差范围内(例如 68-95-99.7)精确指定概率的数据,对于产生我们可以用任何方法测量的数据的过程来说,这些都不是完全正确的我们人类可以使用的测量设备。

所以你永远不能认为数据是正态分布的,你也永远不能认为产生数据的过程是一个精确的正态分布过程。但是,正如 Glen_b 所指出的,这可能并不重要,这取决于您尝试对数据做什么。

偏度和峰度统计可以帮助您评估与数据生成过程的正态性的某些偏差。不过,它们是高度可变的统计数据。上面给出的标准误差没有用,因为它们仅在正常情况下有效,这意味着它们仅可用作正常的测试,本质上是无用的练习。最好使用 bootstrap 来查找 se,尽管需要大量样本才能获得准确的 se。

此外,与上述帖子相反,峰度很容易解释。它是 Z 值的平均值(或预期值),每个值均取四次方。大 |Z| 值是异常值,对峰度有很大影响。小 |Z| 值(分布的“峰值”所在的位置)给出的 Z^4 值很小,对峰度基本上没有贡献。我在我的文章https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4321753/中证明了峰度非常近似于 Z^4 *I(|Z|>1) 值的平均值。因此峰度测量数据生成过程产生异常值的倾向。

您似乎在这里要求的是从正常人群中抽取的样本的偏度和峰度的标准误差请注意,估计偏度胖尾(峰度)等事物的方法有很多种,这显然会影响标准误差。人们想到的最常见的度量在技术上被称为第三和第四标准化矩。

值得考虑这些指标的一些复杂性。典型的偏度统计量并不像人们怀疑的那样衡量对称性(参见此处)。峰度可能更加复杂。它有一个可能的范围从[1,),其中正态分布的峰度为3. 因此,人们通常使用“超峰度”,即kurtosis3. 那么范围是[2,). 然而,在实践中,峰度从下限为skewness2+1,并从上面通过您的样本量的函数(大约24/N)。此外,当不偏度时,峰度更难解释0. 这些事实使它比人们预期的更难使用。

对于它的价值,标准错误是:

SE(skewness)=6N(N1)(N2)(N+1)(N+3)SE(kurtosis)=2×SE(skewness)N21(N3)(N+5)

撇开我们是否可以将样本的偏度和峰度与正常人群的预期区分开来的问题不谈,您还可以询问与正常人群的偏差有多大0是。我听说过的经验法则(就它们的价值而言)通常是:

  • <|.5|小的
  • [|.5|,|1|)中等的
  • |1|大的

可以在此处找到关于偏度和峰度的良好介绍性概述。

[在接下来的内容中,我假设您提出的建议是“检查样本偏度和峰度,如果它们都在某些预先指定的范围内,请使用一些正常的理论程序,否则使用其他东西”。]

这有很多方面,其中我们只有少数考虑的空间。在开始使用这样的标准之前,我将首先列出我认为可能需要考虑的重要问题。稍后我将尝试回过头来写一些关于每个项目的内容:

需要考虑的问题

  1. 各种非正态性对我们所做的事情有多严重?

  2. 使用样本偏度和峰度的范围来找出这些偏差有多难?

    我在提案中同意的一件事 - 它着眼于与效果大小(与正常值有多少偏差)而不是显着性相关的一对衡量标准。从这个意义上说,它将更接近于解决一些有用的问题,正式假设检验将倾向于拒绝大样本量下甚至是微不足道的偏差,同时提供不拒绝更大(和更有影响力)偏差的错误安慰小样本量。(假设检验在这里解决了错误的问题。)

    当然,在小样本量下,从测量非常“嘈杂”的意义上说,仍然存在问题,因此我们仍然可能误入歧途(置信区间将帮助我们了解它实际上可能有多糟糕)。

    它并没有告诉我们偏度或峰度的偏差如何与我们想要正态性的任何问题相关 - 并且不同的程序对非正态性的响应可能完全不同。

    如果我们对常态的偏离是一种偏度和峰度对我们视而不见的情况,这对我们没有帮助。

  3. 如果您使用这些样本统计数据作为在两个程序之间做出决定的基础,那么对结果推断的属性有什么影响(例如,对于假设检验,您的显着性水平和功效看起来如何?)

  4. 有无数个分布具有与正态分布完全相同的偏度和峰度,但明显是非正态分布。它们甚至不需要对称!此类事物的存在如何影响此类程序的使用?企业一开始就注定失败?

  5. 在从正态分布中抽取的样本中,您可以看到样本偏度和峰度有多少变化?(按照某种规则,我们最终会丢弃多少比例的正常样本?)

    [在某种程度上,这个问题与 gung 在他的回答中讨论的一些内容有关。]

  6. 可能有更好的事情可以代替吗?

最后,如果在考虑了所有这些问题之后,我们决定我们应该继续使用这种方法,我们会根据您的问题得出考虑:

  1. 对于各种程序,偏度和峰度的良好界限是什么?在哪些程序中我们需要担心哪些变量?

    (例如,如果我们正在做回归,请注意以这种方式处理任何 IV 甚至原始 DV 都是不正确的——这些都假定不是从常见的正态分布中得出的)


我会回来补充一些想法,但您在此期间的任何评论/问题可能会有用。