性别歧视的二项分布?

机器算法验证 r 二项分布 样本量 统计模型
2022-03-28 02:48:29

我可能走错了路,但我正在尝试使用二项分布来识别性别歧视,并且在根据试验规模获得一致的结果时遇到问题(?)......我想。小数字按预期工作,大数字则不然。

一个有效的例子:雇用了 16 人。2是女性。这种随机发生的可能性有多大?(x)=2, (n)=16, (p)=.5。下面的示例 [来自 R] 显示了我的预期。

pbinom(2, size=16, prob=0.5) 
#0.0021 -> .2% chance that there is no gender discrimination

一个不起作用的例子:雇用了 1150 人。350 人是女性。这种随机发生的可能性有多大?(x)=350,(n)=1150,(p)=.5。下面的示例 [来自 R] 没有显示我的预期。

pbinom(350, size=1150, prob=0.5) 
# 2.388788e-41 -> ?!

提前致谢。请提出任何更好的建议!

4个回答

布鲁斯的回答很棒。我想提供另一种方式来询问您观察到的结果是否合理。很容易查看 p 值并认为它与我们对观察到的数据和模型的直觉有关是“错误的”。

通过考虑我们的模型在零假设下会生成什么数据可能有助于重新构建这一点。正如 whuber 所指出的,招聘中的性别偏见是一个复杂的话题,所以我在这里指的是“正面的数量”,就像抛硬币正面朝上的数量一样。然而,原则上,只要满足适当的假设,同样的问题将适用于任何二项式模型。

首先,让我们模拟如果我们连续抛 16 个硬币,我们得到多少正面,并重复该模拟 10,000 次。结果的分布是什么,2 在那个分布上的位置是什么?

a <- replicate(10000, rbinom(1, size = 16, prob = 0.5))
hist(a,
    breaks = "FD",
    xlab = "Number of heads",
    main = "Histogram of number of heads when n=16, p=0.5"
)
abline(v = 2, lty = "dashed")

2 存在于我们的模拟数据中,但频率非常低。因此,0.2% 似乎至少在正确的范围内。请记住,我们只进行了 10,000 次重复,所以当然会有错误。

现在,让我们模拟在模拟 1150 次翻转时我们得到的正面数量,重复该过程 10,000 次,并可视化分布以及观察到的 350 值:

b <- replicate(10000, rbinom(1, size = 1150, prob = 0.5))
hist(b,
    breaks = "FD",
    xlab = "Number of heads",
    main = "Histogram of number of heads when n=1150, p=0.5"
)
abline(v = 350, lty = "dashed")

嗯。除非我们手动调整 x 轴,否则分布上甚至看不到 350!

## in fact 350 isn't visible unless we set xlim
hist(b, breaks = "FD",
    xlab = "Number of heads", xlim = c(340, max(b) * 1.1),
    main = "Histogram of number of heads when n=1150, p=0.5"
)
abline(v = 350, lty = "dashed")

的二项分布是一个非常奇怪的结果!因此,极小的 p 值并不令人惊讶。我认为你需要在模拟范围内观察一个极端的值,事实上......p=0.5n=1150x=3501e40

假设一个人从一大群同样合格的申请人中招聘,其中一半是女性,一半是男性。中雇用的女性人数假设是任何一个雇员都是女性的概率。nX.p

也许您想针对H0:p=1/2Ha:p<1/2.

对于,此测试的 P 值在 R 中给出如下:n=16,x=2

binom.test(2, 16, .5, alt="less")

        Exact binomial test

data:  2 and 16
number of successes = 2, number of trials = 16, p-value = 0.00209
alternative hypothesis: 
 true probability of success is less than 0.5
95 percent confidence interval:
 0.0000000 0.3438252
sample estimates:
probability of success 
                 0.125 

P值也可以找到如下:

pbinom(2, 16, .5)
[1] 0.002090454

也许更公平的方法是测试 也许考虑到招聘过程可能会在任一方向上存在偏差。事实证明,这个 2 面测试的 P 值是 1 面测试的 P 值的两倍。H0:p=1/2Ha:p1/2,

binom.test(2, 16, .5)

        Exact binomial test

data:  2 and 16
number of successes = 2, number of trials = 16, p-value = 0.004181
alternative hypothesis: 
 true probability of success is not equal to 0.5
95 percent confidence interval:
 0.0155136 0.3834762
sample estimates:
probability of success 
                 0.125 

解释这些测试结果的一个主要困难在于证明使用“一大群同等资格的申请人,其中一半是女性,一半是男性”的假设是正确的 - 或者是可用的。如果不解决这些更困难的问题,雇用的女性人数可能会导致“统计意义”,但不太可能有说服力。@whuber 的评论提供了有用的建议。

对于 1150 名女性中雇用的 350 名女性的数据,单侧和双侧检验的 P 值如下所示。两个 P 值都非常接近于 表明观察到的0,p^=X/n=350/1150=0.304p=1/2.

binom.test(350, 1150, .5, alt="less")$p.val
[1] 2.388788e-41
binom.test(350, 1150, .5)$p.val
[1] 4.777577e-41

在您进行此类测试的统计力学之前,您需要退后一步,确保您记住“相关性不是原因”的禁令。性别歧视是导致招聘概率不平等的一个可能原因,但还有许多其他可能的原因,最常见的是性别与职位相关技能或资格之间的相关性。而且,对于你问题中的数据,我们甚至没有每个性别的申请人数,所以我们可以估计的概率甚至不是以申请职位为条件的——即,它们不是“招聘概率”一点也不;它们是申请然后被录用的联合概率。如果男性和女性的概率不相等,那并不能证明性别歧视。

出于这个原因,最好先用纯粹的统计术语来进行这种类型的分析,在这种情况下,您正在测试男性或女性的申请和被雇用的概率是否相同。对于您拥有的数据,这通常会使用双边二项式检验来完成。 使用较小的数据集,您可以从下面的测试中看到,有证据表明该事件的联合概率不相等。(对于较大的数据集,不等概率的证据要强得多)。

#Perform test for equal probability
binom.test(2, 16, conf.level = 0.99, alt = "two.sided")

            Exact binomial test

data:  2 and 16
number of successes = 2, number of trials = 16, p-value = 0.004181
alternative hypothesis: true probability of success is not equal to 0.5
99 percent confidence interval:
 0.006658398 0.462758698
sample estimates:
probability of success 
                 0.125 

现在您已经建立了不等概率的证据,您可以考虑一下您可以做出什么因果推论(如果有的话)。特别是,您需要考虑在实验设置中是否有任何东西可以让您拒绝对不平等概率的其他因果解释(例如,男性更有可能申请,男性更有可能拥有该职位所需的技能等.)。没有更多,使用这些统计证据得出性别歧视已经发生的结论是非常可疑的。

如果您想了解更多有关此主题的信息,我建议您阅读一些关于劳动经济学招聘中的性别歧视的研究。关于这个主题的研究通常要么使用带有随机性别分配的假简历进行随机对照试验 (RCT),要么使用观察数据并尝试使用回归方法过滤掉混杂变量。另一种方法是查看组织内人员的技能和资格指标,过滤他们的组织级别和其他协变量,然后查看技能/资格与性别之间是否存在任何残留相关性;如果存在,这可能表明对具有较高剩余技能值的群体存在性别歧视(即,这些值较高,因为歧视导致对该群体中人员的招聘/晋升进行更严格的过滤)。这是一个相当复杂的领域,它所涉及的远不止是这里比较的那种总的产出统计比较。它通常涉及对原因和统计关联之间关系的更深入思考。


一些分析师会推荐单边测试,因为您可以测试女性申请和被雇用的可能性较低的替代方案。我的观点是应该进行双边检验,以免使检验偏向于可能受数据影响的假设。

结果是一致的。

您通过试验规模获得的 p 值差异符合预期。

结果对参数的依赖性是因为分布变得更窄。n

增加时,相同的相对偏差变得不太可能。n

有关观察到的女性人数和女性比例作为工人人数的函数的分布,请参见下面的示例(改编自此处) 。kfn

n 的影响示例

相关问题是如何根据事件的计数来估计事件发生的概率?


一致性

相同的影响大小(例如女性比例)变得更显着的事实是一件好事。

这与“统计一致性” *有关,这是一个理想的属性。这意味着我们可以通过收集更大的样本来做出更好的估计(尽可能多地)。

这就是你对 1150 个样本所做的事情,它比 16 个样本更准确地估计了女性的比例。


*如果“当我们增加样本量时,估计量与真实值相差一定数量的概率接近零”,则估计量是一致的


旁注:严格来说,您只观察到女性的比例与 0.5 不同。但这也是歧视吗?


旁注:这种“偏离中间”的比较是在 p 值和正态分布的原点。1710 年,Arbuthnot 进行了类似的比较,比较了男孩和女孩的出生率。这是表达 p 值的最早案例之一。