机器算法验证 - 假设两个均值和方差相等的高斯分布，那么我们期望每个组的前 X 个成员有多大不同？ - 吾爱随笔录

假设两个均值和方差相等的高斯分布，那么我们期望每个组的前 X 个成员有多大不同？

机器算法验证正态分布

2022-03-29 08:19:34

这是我得到这个想法的线索：http ://www.quora.com/Do-men-have-a-wider-variance-of-intelligence-than-women/answer/Ed-Yong

基本上，这是一个模型，可以解释为什么在著名的数学/科学竞赛中没有更多的女性 - 它可能是一个统计人工制品，原因是数学/科学中男性远多于女性这一简单事实。如果这个模型适用，那么我们可能不需要假设男性智力的方差高于女性智力。

我希望看到的问题是：如果我们假设均值和方差相等（但样本量不同），那么论文中的模型在用于预测时仍然是最好的模型，比如说，团队的性别构成5-10名最好的球员？而不仅仅是大师的性别构成？

http://rspb.royalsocietypublishing.org/content/276/1659/1161.full#sec-3有模型图和使用

他们基本上使用前 100 名男性和前 100 名女性之间的配对。这是一个有效的假设吗？它适用于特级大师——这是真的——但如果我们试图选择任何领域的前 10 人，它会起作用吗？毕竟，如果我们试图从每个性别的前 5 名球员的随机分布中选择，而不是每个性别的第 n 名球员，那么预期的分布完全有可能是不同的。

例如，当您增加为“获胜”球队选择的球员数量时，分布可能会以不同的方式发挥作用。我希望较小的组比较大的组具有更高的均值方差。我们知道，在对整个人口分布进行平均时，这是正确的（作为中心极限定理的结果）。但是，如果我们只想要每个人口中的 10 人呢？事实是，很多“潜在的”顶尖人才最终会退出，因为他们会做一些事情，而不是每天花几个小时为“获胜的团队”练习

但是，极值的高度可变性 - 如果我们谈论的是最高值，那是有道理的。在大量人口中，极值将非常一致。而在少数群体中，极值将有很多可变性 - 但与右侧部分相比，该极值在（极值的平均值）的左侧部分花费的时间要多得多。因此，如果您在大多数年份都进行了正面交锋，则样本量较大的人群将获胜。

问题是，每个发行版的前 10 名成员的正面交锋怎么样？这将是论文使用的模型（1 比 1 对战）和我们简单地让两个整体相互对战的模型之间的某种平均值。

2个回答

较早的答案没有解决前名或前名球员的性别构成问题。分析答案很简单，它不依赖于潜在的分布（只要男性和女性的分布相同，并且是连续的，并且假设每个人的能力独立于其他人）。在这些假设下，前名中的女性人数遵循非常接近二项分布的超几何分布。如果参与的男性是女性的倍，那么每个位置都有的机会被女性占据。对于那个问题，不需要用于在您引用的论文中产生结果的技术。 $5$ $10$ $k$ $10$ $1/11$

如果您想从个最高值的期望值，则这是顺序统计量的期望值，这确实（略微）取决于分布。对于个最大值的期望值为。我认为正态分布的顺序统计量的期望值通常没有封闭形式，但是有很好的近似值可以告诉您如何调整高于平均值的标准差。 $i$ $n$ $[0,1]$ $i$ $n$ $\frac{n+1-i}{n+1}$ $\Phi^{-1}(\frac{n+1-i}{n+1})$

虽然将这些顺序统计数据理解为零假设可能是值得的，但我怀疑国际象棋选手的评分分布是否与正态分布非常接近，以至于数百万棋手中的最高评分可以通过相应的值正确预测一个正态分布。通常，当您使用正态近似值时，您不会指望它与平均值有几个标准差，而且它肯定不会在另一个方向上起作用。

让我们看看 100 个高斯人中的前 3 名与 1000 名中的前 3 名。
真正的统计学家会为此提供公式以及更多；对于我们其他人来说，这里有一个小蒙特卡洛。代码的目的是大致了解的分布；运行它给出 $X_{(N-2)} X_{(N-1)} X_{(N)}$

# top 3 of  100 Gaussians, medians: [[ 2.   2.1  2.4]]
# top 3 of 1000 Gaussians, medians: [[ 2.8  2.9  3.2]]

如果有人可以在 R 中用地毯图做到这一点，那肯定会更清楚。

#!/usr/bin/env python

# Monte Carlo the top 3 of 100 / of 1000 Gaussians
# top 3 of  100 Gaussians, medians: [[ 2.   2.1  2.4]]
# top 3 of 1000 Gaussians, medians: [[ 2.8  2.9  3.2]]
# http://stats.stackexchange.com/questions/12647/assuming-two-gaussian-distributions-of-equal-mean-and-variance-then-how-differen
# cf. Wikipedia World_record_progression_100_metres_men / women

import sys
import numpy as np

top = 3
Nx = 100
Ny = 1000
nmonte = 100
percentiles = [50]
seed = 1
exec "\n".join( sys.argv[1:] )  # run this.py top= ...
np.set_printoptions( 1)  # .1f
np.random.seed(seed)
print "Monte Carlo the top %d of many Gaussians:" % top

    # sample Nx / Ny Gaussians, nmonte times --
X = np.random.normal( size=(nmonte,Nx) )
Y = np.random.normal( size=(nmonte,Ny) )

    # top 3 or so --
Xtop = np.sort( X, axis=1 )[:,-top:]
Ytop = np.sort( Y, axis=1 )[:,-top:]

    # medians (any percentiles, but how display ?) --
Xp = np.array( np.percentile( Xtop, percentiles, axis=0 ))
Yp = np.array( np.percentile( Ytop, percentiles, axis=0 ))
print "top %d of %4d Gaussians, medians: %s" % (top, Nx, Xp)
print "top %d of %4d Gaussians, medians: %s" % (top, Ny, Yp)

其它你可能感兴趣的问题

上一篇基于 ROC 和 PR 曲线的评估和组合方法下一篇混合（连续/有序/名义）数据的因子分析？