峰度分布有什么实际意义/解释?

机器算法验证 定义 解释 峰度
2022-03-22 04:58:49

我熟悉第二时刻(方差)的含义以及第三时刻(偏度)的含义。我知道在直方图上的第四个时刻(峰度)表示数据的“偷看”。我的问题询问峰度分布的实际含义/解释是什么。我问这个是因为我还没有找到一个我认为第 4 时刻在理论上很有趣且可以解释的案例。我知道这种解释/暗示可能是特定于数据集的,因此我正在寻找对示例数据集的描述,其中分布的峰度在理论上是有趣且可解释的。

4个回答

峰度也表示分布的“肥尾”。具有高峰度的分布将包含许多极端事件(远离中心的事件)和许多“典型”事件(靠近中心的事件)。具有低峰度的分布将具有距中心中等距离的事件。这张图片可能会有所帮助: http: //mvpprograms.com/help/images/KurtosisPict.jpg

我似乎记得,当样本从尖峰分布中抽取时,中位数的标准误差小于平均值,但当分布是平峰分布时,平均值的标准误差更小。我想我在威尔科克斯的一本书中读到了这一点。因此,峰度可能决定使用哪种位置测试。

还没有一个数据集的例子来回答你关于解释的问题,但是这个对相关问题的回答表明峰度的实际含义是有偏差的方差估计。

在理性考虑解释差异时,我认为在正态分布和完全平坦分布(例如掷骰子的结果)之间比较的极端示例中有相关信息。这不是一个真正的数据集,但我相信每个人都熟悉这两种分布,并且可以轻松地创建其中一个或想到另一个示例。基本上,platykurtic 分布与正态分布的区别在于集中趋势较弱,并且相对常见与极端/罕见事件的概率之间的差异较小。简单地说,尖峰分布的情况正好相反:一些事件非常常见,而其余的大部分事件非常罕见,通常是由于异常强烈的集中趋势。

此外,您可能需要考虑来自 Wikipedia 的这句话(强调添加):

由 Karl Pearson提出的一种常见的峰度测量方法是基于数据或总体的四阶矩的缩放版本,但有人认为这确实测量的是重尾,而不是峰值......这是常见的做法使用调整后的 Pearson 峰态(超峰态)来比较给定分布的形状与正态分布的形状。

Pearson's kurtosis之间的上述区别excess kurtosis似乎与@whuber 对已接受答案的评论有关。

度风险在该链接中没有得到很好的解释。

一般来说,如果您使用假设正态性的分析,正态性(或偏离)的度量是至关重要的。例如,标准的主力 Pearson- r相关系数对异常值非常敏感,并且随着过度峰态偏离 0 变得基本无效。

检验通常用于检查正态分布,并将样本峰度作为一个因素。