双峰分布 platykurtic 是怎样的?
每个@whuber 评论的图形评论。
这是来自形状参数的beta 分布的一百万个观测样本的直方图 。Wikipedia 链接具有用于 beta 分布的均值、方差、偏度和峰度的公式(对于给定的。叠加的正态密度曲线与样本的平均值和 SD 相匹配。
图的R代码:
set.seed(2021)
y = rbeta(10^6, .5, .5)
mean(y); sd(y)
[1] 0.500134
[1] 0.3535411
hdr = "BETA(.5, .5) Sample with Normal PDF"
hist(y, prob=T, br=30, xlim=c(-.5,1.5), col="skyblue2", main=hdr)
curve(dnorm(x, mean(y), sd(y)), add=T, col="orange", lwd=2)
abline(h=0, col="green2")
虽然对峰度的错误“峰度”解释最终逐渐消失,但它已被其他稍微不那么令人震惊的误解所取代。一是高峰度意味着“尾部有大量数据”。这可能是由 Balanda 和 MacGillivray 开始的,他们“将”峰度“模糊地定义为概率质量从分布的肩部到其中心和尾部的无位置和无标度运动”。
这种“解释”与 Finucan 结果中的含义相反,它证明随着质量从“肩部”向中心和尾部移动,峰度会增加。(顺便说一下,在双峰情况下,这里没有矛盾,因为中心没有质量)。不幸的是,Finucan 条件并没有告诉您更大的峰度对分布意味着什么。推断更大的峰度意味着“尾巴中的质量更大”类似于说“嗯,我知道所有的熊都是哺乳动物,所以必须是所有哺乳动物都是熊的情况”。
有关峰度趋于无穷大但尾部质量减小的概率分布族的简单反例,请参见此处:https ://math.stackexchange.com/a/2510884/472987
峰度不是“尾部质量”,而是精确测量尾部杠杆,即质量和延伸的组合。更大的延伸意味着更大的杠杆,即使质量很小(阿基米德吹嘘他可以用足够长的杠杆移动地球)。离数据包足够远的单个异常值足以产生巨大的影响。因此,虽然上面的评论似乎说峰度被异常值“扭曲”(暗示对不正确的“峰度”定义表示赞同?),但更正确的说法是峰度测量异常值。
虽然异常值有时被定义为“错误”,但我在这里将它们称为“罕见的极端值”。两点等概率双峰分布是分布范围中最不容易出现异常值的分布。也就是说,它的尾部杠杆最小。
除了我 2014 年的论文“峰度作为峰度:1905-2014. RIP”之外,这里还有一些文章解释了峰度的“尾部杠杆”含义的确切性质。