性别与学士学位或更高学位之间关系的重要性(2017 年美国劳动力,25 岁​​及以上)(差异,差异)

机器算法验证 假设检验 统计学意义 采样 卡方检验 人口
2022-03-31 08:07:13

类似以下的报告和网页提示了这个问题:Kurt Bauman 和 Camille Ryan 于 2015 年 10 月 7 日,美国人口普查博客Random Samplings撰写的“现在是班级的负责人,领导男性大学成就的女性” 。(这不是家庭作业。)


根据美国劳工统计局当前人口调查的 2017 年年度数据,以及 25 岁及以上的美国平民劳动力:

性别与拥有学士学位或更高学位之间是否存在实际或统计意义或两者之间的关系?为什么或者为什么不?


这两个变量——性别和拥有学士学位或更高学位——在 BLS 估计中都是自然二分变量。一个人要么是男人要么是女人,要么拥有学士学位或更高学位,要么没有。

下面的表 1 包含双向 2×2 列联频率分布表 中的 BLS 估计值1 ,其中包含用于显示相关数字的额外行和额外列。(下面最后一个编号的注释包含此问题的 CSV 格式的表格数据,以便您更轻松地将其加载到电子表格或其他程序中。)

可以看出,39.69991%的总人口拥有本科及以上学历,但男性拥有本科及以上学历的比例低于该比例,女性拥有本科及以上学历的比例高于该比例。因此,可以通过获得学士学位的女性的百分比或比率与可以通过该测试的男性的百分比或比率之间存在差异。

Table 1:  Numbers from and derived from 2017 B.L.S. C.P.S.

         |Civilian     |Bachelor's |          | Expected  | Difference | 
         | labor force | degree    |     %    | number at | from       |
         | age >= 25   | or higher |   (rate) | 39.69991% | expected   |
---------|-------------|-----------|----------|-----------|------------|
Men      |   74,258,000| 27,781,000| 37.41146%| 29,480,360|  -1,699,360|
---------|-------------|-----------|----------|-----------|------------|
Women    |   64,901,000| 27,465,000| 42.31830%| 25,765,639|  +1,699,360|
---------|-------------|-----------|----------|-----------|------------|
Together |  139,159,000| 55,246,000| 39.69991%|     [n/a] |      [n/a] |
---------|-------------|-----------|----------|-----------|------------|
Disparity|       [n/a] |     [n/a] | 88.40492%|     [n/a] |      [n/a] |
in rates |             |           |          |           |            |
---------|-------------|-----------|----------|-----------|------------|

如表 1 所示,按性别划分的比率差异为 88.40492%。每 100 名拥有此类学位的女性中,大约有 88 名拥有学位的男性。总差距为3,398,720。

可以将表 1 的估计值输入许多在线卡方计算器之一以获得结果p-value<.00001

然而,同样,那些 BLS 估计只是:估计通过检查 BLS 对实际数字有一定程度的置信度的范围,可以进一步了解明显的差异。BLS 提供了有关如何确定估计值的 95% 置信区间水平的说明。2 在 95% 的置信水平下,低端和高端数字如下:

Table 2:  B.L.S. low and high end numbers with 95% level of confidence intervals.

         |Civilian     |Civilian     |Bachelor's |Bachelor's |
         | labor force | labor force | degree    | degree    |
         | age >= 25   | age >= 25   | or higher | or higher |
         | LOW END     | HIGH END    | LOW END   | HIGH END  |
---------|-------------|-------------|-----------|-----------|
Men      |   73,635,096|   74,880,904| 27,172,805| 28,389,195|
---------|-------------|-------------|-----------|-----------|
Women    |   64,285,841|   65,516,159| 26,857,979| 28,072,021|
---------|-------------|-------------|-----------|-----------|

获得学士学位或更高学位的性别比例差异可以通过使用以下极端案例数字来缩小和缩小:对于男性,使用低端劳动力数量和高端学士学位或更高学位数字。对于女性,则相反:使用高端劳动力数量和低端本科或更高学历数量。这些数字可以列表如下:

Table 3:  Table 1 but starting with edge-case least-disparate numbers based on the 95% level of confidence intervals.

         |Civilian     |Bachelor's |          | Expected  | Difference | 
         | labor force | degree    |     %    | number at | from       |
         | age >= 25   | or higher |   (rate) | 39.70296% | expected   |
---------|-------------|-----------|----------|-----------|------------|
Men      |   73,635,096| 28,389,195| 38.55389%| 29,235,316|    -846,121|
---------|-------------|-----------|----------|-----------|------------|
Women    |   65,516,159| 26,857,979| 40.99443%| 26,011,858|    +846,121|
---------|-------------|-----------|----------|-----------|------------|
Together |  139,151,255| 55,247,174| 39.70296%|     [n/a] |      [n/a] |
---------|-------------|-----------|----------|-----------|------------|
Disparity|       [n/a] |     [n/a] | 94.04665%|     [n/a] |      [n/a] |
in rates |             |           |          |           |            |
---------|-------------|-----------|----------|-----------|------------|

因此,在 2017 年 25 岁及以上的平民劳动力中,拥有学士学位或更高学位的性别比例的差异——当使用边缘案例最小差异案例数时——为 94.04665%。总差距为 1,696,244。

即使表 3 是基于边缘情况最小不同的数字,这些数字仍然导致结果p-value<.00001

诸如被检查的差异之类的关系差异通常被发现在 p 值 <.05 时具有统计学意义。可以通过使用表 1 估计值和边缘情况最小差异表 3 数字确定差异需要是什么来获得 p 值 <.05,从而获得对明显差异的额外洞察。

要获得表 1 估计的 p 值 <.05,性别比例的差异必须是 99.93755% 和 17,180 的整数。(见附注中的表 4。)

要使用边缘情况最小差异表 3 数字获得 p 值 <.05,性别比例的差异必须是 99.93758% 和 17,190 的整数。(见附注中的表 5。)

换句话说,这种差异可能比将差异归因于机会所需的大约 17,190 个人多 1,696,244 到 3,398,720 个人。


笔记:

  1. BLS 数字基于此处此处的 BLS 2017“当前人口调查”(“CPS”)数字(以千计) 。例如,表 1 的“平民劳动力年龄 >= 25”数字基于以下简单相加:
    • 男性 = 25 至 54 岁 (54,813,000) + 55 至 64 岁 (14,156,000) + 65 岁及以上 (5,289,000) = 74,258,000
    • 女性 = 25 至 54 岁 (47,870,000) + 55 至 64 岁 (12,743,000) + 65 岁及以上 (4,288,000) = 64,901,000
    美国人口普查局的CPS Table Creator 还提供了未加权记录计数的数据
  2. 来自 BLS 经济学家 K. Kosanovich,2018-03-06~16:59EST:* * * 有关 CPS 估计的可靠性以及如何构建近似标准误和置信区间的信息,请访问https://www.bls .gov/cps/documentation.htm#reliability* * * 有几种方法可以构建置信区间。例如,您可以计算 1 来估计 2017 年 25 岁及以上的民用劳动力中的男性人数(年平均值)。我将使用 PDF 文件中关于在线计算标准误差的指南简要回顾一个示例,网址为https://www.bls.gov/cps/documentation.htm#reliability以及该链接的 XLSX 文件中提供的参数和因素。* * * 以 2017 年为例,劳动力中有 27,781,000 名男性拥有本科及以上学历。我将在表 PF-4中选择具有学士学位的年平均人数的参数和因子,其中 a = -0.0001858,b = 12882.76,f = 0.67。计算标准误差对于年平均水平,公式为 se(x) = f * squareroot[ax2 + bx]。在这种情况下,标准误差 27,781,000 = 0.67 * squareroot [ (-0.0001858 * 27,781,000 * 27,781,000) + (12882.76 * 27,781,000) ] 或 310,304。为了创建 90% 的置信区间,我们将标准误乘以 1.645,得到 510,450 或大约正负 510。我们有 90% 的信心认为劳动力中拥有学士学位或以上学历的男性人数是27,781,000 加减约 510,000。您可以使用相同的参数和因素为拥有学士学位或更高学位的女性构建置信区间。对于 25 岁及以上劳动力中的男性或女性,您可以使用表 PF-1 中男性和女性 20 岁及以上的参数和因子。
  3. 评论者引用的该问题的先前版本以 Jon Marcus 的故事“为什么男人是新的大学少数群体”为特​​色,2017 年 8 月 8 日,大西洋
  4. CSV 格式的表格如下:
    表 1:2017 年 BLSCPS 的数字和派生数字,,,,,
    ,文职劳动力年龄>=25,本科以上学历,%(率),预期人数为39.69991%,与预期差异
    男,74258000,27781000,37.41146%,29480360,-1699360
    女性,64901000,27465000,42.31830%,25765640,1699360
    合计,139159000,55246000,39.69991%,[n/a],[n/a]
    比率差异,[n/a],[n/a],88.40492%,[n/a],[n/a]
    ,,,,,
    表 2:基于 95% 置信区间水平的 BLS 低端和高端数字。,,,,,
    ,文职劳动力年龄>=25 LOW END,文职劳动力年龄>=25 HIGH END,本科以上学历 LOW END,本科以上学历 HIGH END,
    男士,73635096,74880904,27172805,28389195,
    女性,64285841,65516159,26857979,28072021,
    ,,,,,
    表 3:表 1,但具有基于 95% 置信区间水平的极端情况最小差异数字。,,,,,
    ,文职劳动力年龄>=25,本科以上学历,%(率),预期人数为39.70296%,与预期差异
    男,73635096,28389195,38.55389%,29235316,-846121
    女性,65516159,26857979,40.99443%,26011858,846121
    一起,139151255,55247174,39.70296%,[n/a],[n/a]
    比率差异,[n/a],[n/a],94.04665%,[n/a],[n/a]
    ,,,,,
    表 4:表 1 劳动力数字,学位数字与预期数字等距以获得 p 值<.05,,,,,
    ,文职劳动力年龄>=25,本科以上学历,%(率),预期人数为39.69991%,与预期差异
    男性,74258000,29471770,39.68834%,29480360,-8590
    女性,64901000,25774229,39.71315%,25765639,8590
    一起,139159000,55245999,39.69991%,[n/a],[n/a]
    比率差异,[n/a],[n/a],99.93755%,[n/a],[n/a]
    ,,,,,
    表 5:表 3 边缘情况最小差异劳动力数字,其学位数字与预期数字等距以获得 p 值<.05,,,,,
    ,文职劳动力年龄>=25,本科以上学历,%(率),预期人数为39.70296%,与预期差异
    男,73635096,29226721,39.69129%,29235316,-8595
    女性,65516159,26020453,39.71608%,26011858,8595
    一起,139151255,55247174,39.70296%,[n/a],[n/a]
    比率差异,[n/a],[n/a],99.93758%,[n/a],[n/a]
    
3个回答

我会权衡一点,但将其作为答案,以便我可以包含一些代码和结果。

我认为我处理这个问题的方式是考虑效果大小。

如果我正确理解了问题和数据,则相应表格的phi为 0.05。Cohen (1988) 将此值解释为小于“小”。显然,对效应大小的任何解释都与分析的学科和意图有关。但影响的大小确实表明它可能不足以让我们过于兴奋。

以下是 R 中的代码。

if(!require(psych)){install.packages("psych")}

Men.no.bachelors = 74258000 - 27781000
Men.no.bachelors

Women.no.bachelors = 64901000 - 27465000
Women.no.bachelors

Input =("
Sex       No.bachelors      Bachelors
  Men     46477000          27781000
  Women   37436000          27465000
")

Matrix = as.matrix(read.table(textConnection(Input),
                   header=TRUE,
                   row.names=1))

prop.table(Matrix, margin=1)

   ### c     No.bachelors Bachelors
   ### Men      0.6258854 0.3741146
   ### Women    0.5768170 0.4231830

library(psych)

phi(Matrix,
    digits = 4)

   ### [1] 0.05

参考

Cohen, J. 1988。行为科学的统计功效分析,第 2 版。劳特利奇。

在这个问题的基础上存在一些混淆,需要在一开始就解决。如前所述,您的问题是关于获得高等教育学位的性别差异;这个问题没有提到劳动力参与,因此,该指标的数据与您目前所说的问题无关。但是,您对数据的使用表明您实际上只对参与劳动力的成年人在获得高等教育方面的性别差异感兴趣. 对于这篇文章的其余部分,我将假设您的问题被错误陈述,而您的实际兴趣在于后一个问题。如果您对整个相应成年人口的性别差异感兴趣(即所有 25 岁及以上的美国平民,包括那些不在劳动力市场的人),那么您应该将高等教育学历的数量与男性和女性的数量进行比较。人口,你需要得到这些值的估计。

在这里对您的兴趣做出假设后,下一步是认识到您正在使用人口普查调查的输出。这些输出不是数据——它们是根据人口普查局持有的原始数据计算得出的人口估计值。估计值应附有标准误差估计值,因此您需要从人口普查材料中获取该信息,以了解这些估计值的准确性。使用您给出的 95% CI,很容易对估计的标准误差进行逆向工程,它提供了以下信息:

                Civilian Labour Force         With Tertiary Degrees           
                Estimate  |  Std Err          Estimate  |  Std Err   
Men           74,258,000  |  317814.0       27,781,000  |  310309.3
Women         64,901,000  |  313862.4       27,465,000  |  309710.3

正如其他评论员在您的帖子的评论中指出的那样,这些估计来自复杂的调查技术,这些技术通常使用分层抽样方法和复杂的推理方法。理想情况下,您可以通过获取原始人口普查数据并使用它来直接估计每个性别的高等教育学位持有者的比例,以及适当的标准误差来解决这个问题。我将假设这些原始数据不可用,或者即使是这样,这种分析也太繁琐了。

下一个最好的方法是将上述估计值用作您的“数据”并使用此信息执行测试。这涉及分析一个2×2 带有错误分类的列联表,在您的人口普查信息中给出了该错误分类的估计标准误差。有大量关于错误分类列联表分析的文献,这是一个相当复杂的领域,由于问题的变化和分析的困难。在您的特定情况下,您估计了每个性别的高等教育持有者的总数以及劳动力中所有男性和女性的行总数,并且两者都受到错误分类误差的影响,并给出了估计的标准误差。

我的建议:如果您想对高等教育学位持有者比例的性别差异进行正式测试,我建议您的下一个工作是回顾有关错误分类的列联表分析的文献。看看这些数字,我认为很明显你会看到统计上显着的差异证据,但这是因为你只根据劳动力中的人来比较性别。如果您要使用包括非劳动力人口在内的人口估计值,那么我会想象这种差异会消失。

我将专注于统计显着性和您的计算方面,并说明它们为什么是错误的。

提出一个更精致的问题来谈论“实际”意义有点困难。这个话题不仅有点主观(虽然你已经可以在这个网站上找到几篇关于“重要性”一词的不同解释的帖子,至少解释了所涉及的方面),而且因为你的目标不是很清楚,所以这也很困难。您的标题有一个一般性问题“性别与学士学位之间的关系”,但由于人们看待它的方式不同(绝对数字、相对、年龄的不同交叉点等),它变得令人困惑。您使用的(单个)统计数据是否适合您的目的是值得怀疑的,并且它使“实际意义”的解释更加主观/困难。

您不应该以您的方式使用卡方检验(在派生数字而不是原始计数上)(我不确定您是否在第二次计算中也这样做了,这有点模糊,但至少对于您的第一次计算)。

(Pearsons) 卡方检验通过近似具有相同方差/偏差的正态分布来使用二项分布数据的估计值。但是您的数据不是二项式分布的。这些数字不是直接计数(需要对计数数据应用卡方检验)。相反,这些值是从对 60 000 户家庭的调查中获得的。这将使您对相对标准误差的估计远小于现实。

例子(一个极端的例子,使观点更清楚)。如果你调查一百名女性并发现36有bsc或更高。那么这有一个标准差36=6或者17%. 但是,如果您将其重新计算为整个女性人口,请说一些36000000有 bsc 或更高,那么你会天真地计算标准差36000000=6000或者0.017%.

基于 60 000 户家庭(美国大约有 1.26 亿户)。您可以说调查计数被夸大的因素是 2100(实际上,当为家庭组成添加校正并进行加权总和而不是简单地乘以 2100 时,它会稍微复杂一些)。然后观察到的计数更像是(我使用https://www.bls.gov/cps/cpsaat07.htm):

 - total women > 25 yrs:           112 872 000  -> 53 749                
 - total men > 25 yrs:             104 057 000  -> 49 551            
 - total working women > 25 yrs:    64 901 000  -> 30 905            
 - total working men > 25 yrs:      74 258 000  -> 35 361            
 - working women >25 >=bsc:         27 465 000  -> 13 079               
 - working men >25 >=bsc:           27 781 000  -> 13 229           

估计分数的相对 se 将大致为1p^np^或接近 0.5%。

当你粗略地取一个置信区间时±2SE那么你有你在表中看到的 4% 的一半(对于这种简单的方法来说还不错,那么不仅仅是抽样误差,而且这个计算只是使用简单因子 2100 的估计,实际上更复杂) .

您不应该像在第二个相关性中那样组合这两个变量您采用最大值和最小值的最坏情况。但是样本中的观察结果可能是相关的。如果您观察到更多/更少的人拥有学士学位(或更高)和一份工作,那么在此条件下,您会期望更多/更少的人拥有一份工作。您可以将观察结果假设为列联表(现在您可以使用卡方检验,因为它们是原始计数,或者至少是类似的东西),边距固定(这不是一个正确的假设,但更实用并且不产生太多错误,如果你想计算更复杂的解决方案,即精确测试):

           men       women      total
>=bsc      13229     13079      26308
<bsc       22132     17826      39994
total      35361     30905      66302

然后χ2(1)=165.79p<1016

所以它仍然是一个很大的显着结果。(为什么你认为它应该不同?或者至少你似乎想要一个表明它不重要的结果)