极端数据点的频率对正态分布的平均值的高度敏感性是否有名称?

机器算法验证 正态分布 异常值 术语
2022-03-20 16:58:49

我记得听过一个论点,即如果某个人群的平均智商为 110 而不是典型的 100,那么智商为 150 的人将远远多于普通人群中同等规模的人群。

例如,如果两组的 IQ 均呈正态分布且标准差相同,均为 15,我们预计高 IQ 组中约有 0.2% 的人超过 150,而普通人群中则为 0.02%。高智商组的“天才级”人大约是其十倍。尽管在高智商组中智商为 120 或更高的人只有三倍,而智商为 110 或更高的人只有两倍。

因此,当我们遇到智商超过 150 的人时,我们可以强烈怀疑他们来自高智商群体,即使平均而言该群体并没有太大的优势。

这个效果有什么特别的名字吗?

类似地,如果两个总体具有相同的均值,但总体 A 的方差高于总体 B,那么总体 A 将有更多高于某个高阈值的数据点。(我听说过这个论点来解释男性比例高与数学成绩最高的女性相反。据称男性和女性的平均能力相同,但男性的差异更大。)这种效应是否也有名称?

对于这些示例的争议性质,我深表歉意。我只对效果的名称感兴趣,而不是对不同群体的智商和数学能力感兴趣。我只是引用了这些例子,因为这是我听到描述这些现象的背景。

1个回答

这不是问题的答案,但可能很有趣。该问题给出了智商高于给定阈值的平均数=110 和平均数=100 的人口数量的三个比率(比率(IQ=150)≈10,比率(120)≈3,比率(110)≈2)。下面的 R 代码将比率绘制为 IQ 的函数。

IQ = seq(0, 200, length.out=100)
c100 = pnorm(IQ, mean=100, sd=15)
c110 = pnorm(IQ, mean=110, sd=15)
ratio = (1 - c110) / (1 - c100)
plot(ratio ~ IQ); abline(h=c(0, 10, 20, 30, 40, 50, 60))

在此处输入图像描述