男女棋手 - 分布尾部的预期差异

机器算法验证 人口 极值
2022-03-22 08:09:59

我对 2009 年这篇论文的发现感兴趣:

为什么(最好的)女性在国际象棋上如此出色?知识领域的参与率和性别差异

本文试图解释为什么最优秀的男性棋手似乎比最优秀的女性棋手好得多(女性仅占世界上最好的 1000 名棋手的 2%)。具体来说,他们声称最好的男性棋手和最好的女性棋手之间的巨大差异完全可以用两个事实来解释:

  • 男性棋手是女性棋手的 15 倍
  • 我们预计该比率在分布的极端情况下会加剧,完全出于统计原因。引用论文:

即使两组具有相同的平均值(mean)和变异性(sd),表现最好的个体更有可能来自更大的群体。两组之间的规模差异越大,两组中表现最好的人之间的预期差异就越大

然后再次,

这项研究表明,男性和女性国际象棋选手的顶级表现的巨大差异在很大程度上可以归因于一个简单的统计事实——在更大的人群中发现了更多的极端值。

因此,根据作者的说法,如果只有 6% 的国际象棋棋手是女性,那么我们预计前 1000 名中只有 2% 的棋手,因此不需要关于生物学差异或社会偏见的其他解释。

我的问题

我无法理解人口规模的微小差异在分布的极端情况下会加剧的想法。特别是,这个反例有什么问题:

大约每 12 名国际象棋选手中就有 1 名出生在 1 月份。所以他们只占所有棋手的一小部分。通过这些统计方法,我们预计他们在最高级别的代表人数尤其不足——也许只有 30 名顶级球员中只有 1 名会在一月份出生。但是当然你可以将同样的逻辑应用到每个月,你最终会得出一个荒谬的结论。

在我看来,如果你将一个人口分成两组,你会期望在规模的各个方面都有相同的表演者比例。

由于我与已发表论文的结果相矛盾,我想我必须问 - 我做错了什么?

1个回答

我认为你误读了这篇论文,他们没有声称你所说的。他们的说法不是基于顶级球员的数量,而是基于他们的收视率如果男性和女性的力量统计分布相同,那么如果她们占总人口的比例为 6%,则前 100 名中女性的预期人数为 6。论文中的一些引用:

从国际象棋到科学等智力要求高的活动中,少数女性处于最高水平,一种流行的解释是男性和女性智力能力的生物学差异。另一种解释是,大样本中的极值可能大于小样本中的极值。

确实如此。你会期望最好的男人的评级高于最好的女人的评级。这篇论文继续尝试计算多少,这个结果在很大程度上取决于假设的分布。

在第 3 部分,结果中,他们继续将最好的男人与最好的女人配对,下一个最好的也一样,依此类推,对于前 100 个这样的配对。然后他们计算评分差异,并将其与预期评分差异进行比较,因为男性玩家多于女性玩家。所有这些似乎都是正确的,并且与您呈现它的方式非常不同。很可能他们的分析不够稳健,可以做更彻底的分析,但他们的基本思想是正确的。