如何判断数据是轻微非正态分布还是极度非正态分布?

机器算法验证 分布 正态分布 正态假设
2022-03-17 09:00:25

我是一名博士生,正在研究回归分析。

我的问题是如何确定数据是轻微、中度还是极度非正态分布?


TQ 对我的问题的所有回答。但是,可能是我的问题不太清楚。好的,假设我有一些不同的偏度和峰度值(例如:偏度 = 1.5,峰度 = 2.0)。所以我的问题是,从偏度和峰度的值来看,数据分布的类型是什么?它是中度不正常,还是非常不正常或什么?

4个回答

样本偏度和样本(超)峰度通常用作非正态性的度量。

γ=i=1n(xix¯)3(i=1n(xix¯)2)3/2
κ=i=1n(xix¯)4(i=1n(xix¯)2)23

样本偏度衡量经验分布的不对称性。如果远离,则分布不是很对称。由于正态分布是对称的,因此来自正态分布的样本应该接近于00

样本峰度测量分布的“峰度”。如果它远大于,则分布比正态分布更尖,这通常意味着它的尾部更重。如果它小于,则峰值较少,这通常意味着分布是双峰的。样本峰度从下方以为界(从两点分布获得的值,这当然是极端双峰的)。!002

这里有两个例子(灰色的正态分布,红色的其他分布):

在此处输入图像描述

偏态分布的理论偏度,而峰度分布的理论(过度)峰度为如您所见,峰度分布的尾部比正态分布重。1.61.5

那么,为什么要使用偏度和峰度来量化非正态性呢?主要原因是它们会影响中心极限定理的渐近性,正如您可能知道的那样,即使数据不是来自正态分布,它通常也可以用来激励使用统计程序(即基于正态性) ,假设你有一个“足够大”的样本。如果偏度或峰度很高,则需要更大的样本量才能使此类动机有效。

对于某些推理过程,您需要更多地担心偏度,而对于某些推理过程,您需要担心重尾(峰度)。我已经在这个网站的其他地方写了更多关于这个的内容

我认为其他答案确实解决了确定非正态性的方法。但我认为 OP 提出了一个不同的问题。基本上他是在问一旦正常被拒绝如何决定你如何确定严重性?如果它是温和的,也许可以忽略偏差。偏度和峰度可以看作是非正态性的度量,但我认为它归结为一个主观决定,即差异应该有多大,应该称之为轻度、中度或大。我认为关键是可以通过查看直方图、qq 图或偏度和 kutosis 的大小来做出这个决定。但这将是主观的而不是正式的。

尽管维基百科链接可能被认为不是很有帮助,但测试正态性的方法列表很长

方法的范围从(已经提到的)直方图和 qq-Plots,如果你想留在图形方面而不是更多让我们说“经验测试”(与样本大小相关的多个 sigma 事件)到参数和非参数统计测试。在我看来,对这些内容的完整回顾超出了这里的范围(并且对于某些方法肯定也超出了我的范围),所以我在这里会很坦率。

既然你提到了回归分析,我猜你想测试残差的正态性。只需使用 wiki 页面上的一项正态性测试。更流行的变体将偏度和峰度与正态分布进行比较。非参数版本是使用数据的经验累积分布函数(可能是残差)的 Kolmogorov-Smirnov 类型的检验。只需查看 wiki 页面。标准测试很容易实现。

正态分布的偏度为 0。正态分布的峰度为 0。这两个统计量是分布特征的具体度量,而不是主观的绘图解释。当然,剩下的问题是,对于个点以及峰度和偏度的某些值,您的分布离正态有多远。n

因此,运行一些正态性测试会更好。Shapiro-Wilk 是单变量数据的明智选择。

如果你使用 R,你会发现stats中的函数shapiro.test()很有用。如果您想在夏皮罗-威尔克测试结果后获得第二意见,那么moment包括函数skewness( )kurtosis()以及jarque.test() 。