偏斜和峰度如此相似?

数据挖掘 数据集 统计数据 图表 描述性统计 数学
2022-03-01 09:35:35

我一直在拍摄视频中光流的直方图,并绘制每帧的峰度和偏度。在视频的最后,我注意到偏度和峰度相互跟随——即,当偏度上升时,峰度也随之上升,而当它下降时也是如此。事实上,峰度几乎看起来就像一个缩放版本的偏度。我知道偏度和峰度应该是完全不同的概念,因为它们是不同的时刻(x^3 和 x^4 的图看起来根本不相似)但这只是让我想知道为什么当它们看起来都一样相似吗?它们分别有什么用处?也是因为我的分布吗?什么样的分布会发生这种行为?作为参考,我正在使用的函数是 scipy.stats.skew 和 scipy.stats.kurtosis 所以我在此处输入图像描述

2个回答

一个简单而直接的答案是偏度和峰度都是根据值定义的,:偏度 =和峰度 = . 在谈论数据集时,您可以将期望运算符“ ”替换为普通平均值。ZZ=(Xμ)/σE(Z3)E(Z4)E

由于将数字提高到三次方或四次方会放大大于 1 的值(绝对值)并减少小于 1 的值(绝对值),因此偏度和峰度都是尾部重的分布X

请注意,值的绝对值小于 1 对应于值,其与平均值的标准差小于 1;大于 1 对应于与平均值相差超过 1 个标准差的值。因此,值的平均值受到 X 值的高度影响,值与平均值相差很多标准差;即,通过尾部或异常值。ZXZ3Z4X

首先考虑偏度。通过偏度的定义和重心的定义,的偏度处平衡(即具有重心)因此,如果分布左侧的尾部比右侧重,则偏度为负。相反,如果分布右侧的尾部比左侧重,则偏度为正。Z3X

现在考虑峰度。平衡(即,具有重心)的概率分布图请注意,正态分布的峰度正好是 3.0。因此,如果分布的一侧或两侧的尾部比正态分布的尾部重,则峰度大于 3.0,当支点置于 3.0 时,的概率分布向右下降. 反之,如果分布的一侧或两侧的尾部比正态分布的尾部更轻,则峰度小于 3.0,当支点置于 3.0 时,的概率分布向左下降Z4XZ4Z4

因此,偏度和峰度实际上并没有以不同的方式衡量事物——它们都是尾部重量的衡量标准。最大的区别是偏度考虑了一条尾巴相对于另一条尾巴的相对重量。关于峰度的Wikipedia 条目显示了峰度在偏度方面的下限和上限。

那里有一个错误但非常持久的模因,即峰度衡量“峰度或平坦度”,这可能是混淆的根源。你的工作(再次)表明这种描述是错误的。有关“峰度/平坦度”表征为何错误的明确解释,请参见 此处。

偏度和峰度相似,但不同。

偏度是对称钟形曲线或正态分布的扭曲程度。它衡量数据分布中缺乏对称性。它将一个尾部的极值与另一尾部区分开来。对称分布的偏度为 0。

在此处输入图像描述

峰度与分布的尾部有关,而不是峰度或平坦度。它用于描述一条尾巴与另一条尾巴的极值。它实际上是分布中存在的异常值的度量。

数据集中的高峰度表明数据具有重尾或异常值。如果峰度很高,那么我们需要调查为什么会有这么多异常值。它表示很多事情,可能是错误的数据输入或其他事情。调查!数据集中的低峰度表明数据具有轻尾或缺少异常值。如果我们得到低峰度(好得令人难以置信),那么我们还需要调查和修剪不需要结果的数据集。

在此处输入图像描述

中峰:此分布具有类似于正态分布的峰度统计量。

Leptokurtic (Kurtosis > 3):分布更长,尾巴更肥。峰值比 Mesokurtic 更高且更尖锐,这意味着数据是重尾或大量异常值。

Platykurtic:(Kurtosis < 3):分布更短,尾部比正态分布更细。峰值比 Mesokurtic 更低且更宽,这意味着数据是轻尾或缺乏异常值。

希望有帮助。