负偏度分布的真实例子

机器算法验证 分布 偏度 教学
2022-01-19 06:19:21

受“常见分布的真实示例”的启发,我想知道人们使用哪些教学示例来证明负偏度?教学中使用了许多对称或正态分布的“规范”示例——即使像身高和体重这样的例子无法通过更严格的生物学审查!血压可能更接近正常。我喜欢天文测量误差——具有历史意义,直觉上它们不太可能位于一个方向而不是另一个方向,小错误比大错误更有可能。

正偏度的常见教学示例包括人们的收入;出售二手车的里程数;心理学实验中的反应时间;房价;保险客户的意外索赔数量;一个家庭的孩子数量。它们的物理合理性通常源于被限制在以下(通常为零),低值是合理的,甚至是常见的,但众所周知会出现非常大(有时高几个数量级)的值。

对于负偏斜,我发现很难给出年轻观众(高中生)可以直观掌握的明确而生动的例子,这可能是因为现实生活中的分布有明确的上限。我在学校教过的一个不好的例子是“手指数”。大多数人有十个,但有些人在事故中失去一个或更多。结果是“99% 的人的手指数量高于平均水平”!多指症使问题复杂化,因为十不是严格的上限;由于缺少和多余的手指都是罕见的事件,学生可能不清楚哪种影响占主导地位。

我通常使用高的二项分布p. 但学生们经常发现“一批中合格组件的数量呈负偏态”不如“一批中有缺陷的元件数量呈正偏态”这一补充事实更直观。(教科书以工业为主题;我更喜欢一盒十二个完整的鸡蛋。)也许学生觉得“成功”应该很少见。

另一种选择是指出,如果X然后正偏X是负偏态的,但将其置于实际背景中(“负房价负偏态”)似乎注定会失败。虽然教授数据转换的效果有好处,但首先给出一个具体的例子似乎是明智的。我更喜欢看起来不是人为的,负偏度非常明确,学生的生活经验应该让他们了解分布的形状。

4个回答

尼克考克斯准确地评论说“发达国家的死亡年龄呈负向偏差”,我认为这是一个很好的例子。

我发现我能得到的最方便的数字来自澳大利亚统计局(特别是,我使用了这张 Excel 表),因为他们的年龄箱达到了 100 岁,而澳大利亚最年长的男性是 111岁,所以我在 110 年时切断最后一个垃圾箱感到很自在。其他国家统计机构似乎经常停在 95 处,这使得最后的垃圾箱宽得令人不舒服。生成的直方图显示出非常明显的负偏斜,以及其他一些有趣的特征,例如幼儿死亡率的小峰值,非常适合课堂讨论和解释。

2012年澳大利亚男性的死亡年龄

下面是带有原始数据的 R 代码,该HistogramTools 被证明对于基于聚合数据的绘图非常有用!感谢这个 StackOverflow 问题的标记。

library(HistogramTools)

deathCounts <- c(565, 116, 69, 78, 319, 501, 633, 655, 848, 1226, 1633, 2459, 3375, 4669, 6152, 7436, 9526, 12619, 12455, 7113, 2104, 241)
ageBreaks <- c(0, 1, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 110)

myhist <- PreBinnedHistogram(
    breaks = ageBreaks,
    counts = deathCounts,
    xname = "Age at Death of Australian Males, 2012")
plot(myhist)

以下是在 2012 年奥运会男子跳远预选赛中成功完成合法跳跃的 40 名运动员的结果,以核密度图显示,下方是地毯图。

2012年伦敦奥运会跳远男子资格赛成绩

落后主要竞争对手一米似乎比领先一米要容易得多,这可以解释负偏度。

我怀疑在顶端的一些聚集是由于运动员的目标是资格(需要前 12 名或 8.10 米或以上的成绩),而不是达到可能的最长距离。前两名成绩为 8.11 米,略高于自动排位线,这一事实强烈暗示,决赛中获得奖牌的跳跃在 8.31、8.16 和 8.12 米处更长且分布更广。决赛的结果有轻微的、不显着的负偏差。

为了比较,1988 年首尔奥运会七项全能的结果可在heptathlonR 包中的数据集中获得HSAUR在那场比赛中没有资格赛,但每项赛事都为最终排名贡献了积分;女选手在跳高成绩中表现出明显的负偏度,在跳远中表现出一定程度的负偏度。有趣的是,这在投掷项目(射击和标枪)中没有被复制,尽管它们也是数字越大对应于更好结果的项目。最后的分数也有些负面。

数据和代码

require(moments)
require(ggplot2)

sourceAddress <- "http://www.olympic.org/olympic-results/london-2012/athletics/long-jump-m"

longjump.df <- read.csv(header=TRUE, sep=",", text="
rank,name,country,distance
1,Mauro Vinicius DA SILVA,BRA,8.11 
2,Marquise GOODWIN,USA,8.11
3,Aleksandr MENKOV,RUS,8.09
4,Greg RUTHERFORD,GBR,8.08
5,Christopher TOMLINSON,GBR,8.06
6,Michel TORNEUS,SWE,8.03
7,Godfrey Khotso MOKOENA,RSA,8.02
8,Will CLAYE,USA,7.99
9,Mitchell WATT,AUS,7.99,
10,Tyrone SMITH,BER,7.97,
11,Henry FRAYNE,AUS,7.95,
12,Sebastian BAYER,GER,7.92,
13,Christian REIF,GER,7.92,
14,Eusebio CACERES,ESP,7.92,
15,Aleksandr PETROV,RUS,7.89,
16,Sergey MORGUNOV,RUS,7.87,
17,Mohammad ARZANDEH,IRI,7.84,
18,Ignisious GAISAH,GHA,7.79,
19,Damar FORBES,JAM,7.79,
20,Jinzhe LI,CHN,7.77,
21,Raymond HIGGS,BAH,7.76,
22,Alyn CAMARA,GER,7.72,
23,Salim SDIRI,FRA,7.71,
24,Ndiss Kaba BADJI,SEN,7.66,
25,Arsen SARGSYAN,ARM,7.62,
26,Povilas MYKOLAITIS,LTU,7.61,
27,Stanley GBAGBEKE,NGR,7.59,
28,Marcos CHUVA,POR,7.55,
29,Louis TSATOUMAS,GRE,7.53,
30,Stepan WAGNER,CZE,7.50,
31,Viktor KUZNYETSOV,UKR,7.50,
32,Luis RIVERA,MEX,7.42,
33,Ching-Hsuan LIN,TPE,7.38,
33,Supanara SUKHASVASTI N A,THA,7.38,
35,Boleslav SKHIRTLADZE,GEO,7.26,
36,Xiaoyi ZHANG,CHN,7.25,
37,Mohamed Fathalla DIFALLAH,EGY,7.08,
38,Roman NOVOTNY,CZE,6.96,
39,George KITCHENS,USA,6.84,
40,Vardan PAHLEVANYAN,ARM,6.55,
NA,Luis MELIZ,ESP,NA,
NA,Irving SALADINO,PAN,NA")

roundedSkew <- signif(skewness(longjump.df$distance, na.rm=TRUE), 3)

ggplot(longjump.df, aes(x=distance)) + 
    xlab("Distance in metres") +
    ggtitle("London 2012 Men's Long Jump qualifying round results") +
    geom_rug(size=0.8) + 
    geom_density(fill="steelblue") +
    annotate("text", x=7.375, y=0.0625, colour="white", label=paste("Source:", sourceAddress), size=3) +
    annotate("rect", xmin = 6.25, xmax = 7.25, ymin = 0.5, ymax = 1.125, fill="white") +
    annotate("text", x=6.75, y=1, colour="black", label="Best jump in up to 3 attempts") +
    annotate("text", x=6.75, y=.875, colour="black", label="42 athletes competed") +
    annotate("text", x=6.75, y=.75, colour="black", label="2 athletes had no legal jump") +
    annotate("text", x=6.75, y=.625, colour="black", label=paste("Skewness = ", roundedSkew))


# Results of the top twelve who qualified for the Final were closer to symmetric
skewness(longjump.df$distance[1:12])
# -0.1248782

# Results in the Final (some had 3 jumps, others 6) were only slightly negatively skewed
skewness(c(8.31, 8.16, 8.12, 8.11, 8.10, 8.07, 8.01, 7.93, 7.85, 7.80, 7.78, 7.70))
# -0.08578357

# Compare to Seoul 1988 Heptathlon
require(HSAUR)
skewness(heptathlon)

简单考试的分数,或者学生特别积极参加的考试的分数,往往会出现偏差。

因此,进入热门大学的学生的 SAT/ACT 分数(更甚者,他们的 GPA)往往会出现偏差。在collegeapps.about.com 上有很多例子,例如芝加哥大学SAT/ACT 和GPA 的情节在这里

类似地,毕业生的 GPA 经常是左偏的,例如,下面的直方图是一所营利性大学的白人和黑人毕业生的 GPA,取自 Tim Gramling 的图 5。五个学生特征如何准确预测营利性大学毕业几率。” SAGE Open 3.3 (2013):2158244013497026。

显示负偏斜的 GPA 直方图

(不难找到其他类似的例子。)

在英国,一本书的价格。有一个“建议零售价”,通常是模式价格,您几乎无需支付更多费用。但是有的店铺会打折,有的会大打折扣。

另外,退休年龄。大多数人在 65-68 岁退休,这是国家养老金开始生效的时候,很少有人工作更长时间,但有些人在 50 多岁时退休,而很多人在 60 多岁时退休。

然后,人们获得的 GCSE 数量也是如此。大多数孩子进入 8-10,因此获得 8-10。少数人做得更多。有些孩子虽然没有通过所有的考试,所以从 0 到 7 稳步增加。