测试 2x2 列联表:男性/女性,就业/失业

机器算法验证 假设检验 卡方检验 渔民精确测试
2022-04-06 12:30:57

我学的是理科,统计学知识比较肤浅。

问题

我必须找到一个数据集并尽我所能分析它,作为我的统计课程的作业。这不再是一项任务,我只需要帮助解释为什么我的分析做得不好以及我应该做什么。

我使用了新西兰就业率的分类数据集,计划将其排列在一个 2x2 列联表中,并使用 Pearson 的卡方检验和 Fisher 的精确检验来检验性别是否与就业相关。

我想回答什么

  1. 了解为什么我不能对这个问题使用卡方检验和 Fisher 精确检验,并了解我应该使用什么。我假设“作为时间函数的优势比”?关于如何做到这一点的任何有用的链接,在 R 中完美吗?
  2. 了解有关作业第一部分的“顺序相关”评论以及我应该做什么。

帮助我的方法#1(更短)

这就是我们的数据的样子(基于人口普查):

                 Male     Female
Employed      1201600    1060200
Unemployed      73300      75000

我在 R 中进行了卡方检验和 Fisher 精确检验,假设所获得的 p 值将告诉我在 null 为真(男性和女性获得工作的机会均等)。我得到了一个非常小的 p 值,Fisher 的检验给了我 1.16 的优势比,这意味着存在相关性,特别是男性在新西兰找到工作的可能性要高 16%。

但是,根据我的讲师的说法,我不恰当地使用了这些测试。我不太明白为什么,但我认为他是说这些测试假设独立,并且由于新西兰有一定数量的工作,我们的样本不是独立的......不过我不确定(你可以看到下面引用的他的反馈)。

帮助我的方法#2(更长)

如果您有空闲时间,如果您能看一下整个作业,我将不胜感激。我还会提供讲师的反馈,所以如果你能帮我解释一下,那就太好了!对于数学家/统计学家来说,这项作业非常容易,那里只有两个问题,它只是充满了填充,我试图证明我知道我在做什么,你可以跳过大部分。

这是我没有成功完成的作业的 PDF 文件的链接:statistics assignment.pdf

讲师反馈

您的图 1 展示了顺序相关性,这是线性回归不起作用的真正原因。Fisher 检验和卡方检验都不适合您的 2x2 表。这是因为您想测试同质性,但由于非独立性(这并不有趣)而拒绝了 null。两者之间的区别在这里无关紧要(在任何情况下它们都是渐近相同的)。您可以将优势比绘制为时间的函数。

2个回答

一些即时回应:

1)您的讲师表示数据显示自相关。这导致简单线性回归中回归系数的估计效率低下。根据您的课程是否涵盖它,这是一个错误。

2)也许我没有完全理解这个问题,但是IMAO在这里正确使用了独立性的卡方检验,除了另外两个问题:

3)由于样本量,您的卡方检验具有巨大的功效。即使影响很小,也很难不显着。此外,您似乎有人口普查。在这种情况下,统计推断是不必要的,因为您观察了所有人口单位。但这不是讲师所说的。

4)您似乎跨时间点汇总数据。您实际上应该每个时间点测试一次,否则您会随着时间的推移汇总效果(您多次计算单位)。但这也不是讲师所说的。

讲师实际上说您要测试同质性的零点,您可以在其中测试独立性的零点。那么他所说的同质化是什么意思呢?

我想他指的是配对测试数据中边际同质性的测试。该测试用于评估是否存在随时间的变化(重复测量)。然而,这不是您首先要评估的。我的猜测是他不明白你想测试时间点x的性别和就业是否相关。也许他还试图建议您应该测试的是随时间的变化(或没有变化,在这种情况下,多次重复的偶然性确实被称为同质)。

这是非常不透明的反馈——在我看来,他们在说“你这次做得不好——下次再努力”。理解它的唯一方法是勇敢,并要求你的讲师开会进一步讨论事情。

您的讲师似乎对您选择的研究问题感到失望?我认为他们可能一直在寻找一些“流行词”,例如“自动/序列/相关”“时间序列”“季节性影响/调整”“商业周期”“趋势”。我不知道你在做作业时应该知道什么。

无论如何,这就是我的想法。

您的作业显示了执行统计测试的良好能力,但从数据分析的角度来看,显示了一个奇怪的示例选择。分析应该是讲故事。就我个人而言,我喜欢选择男性和女性就业作为主题。但是,我会先提出“第二个例子”,因为这是一个更简单的问题“现在是否存在性别差异?”。在表明明显存在差异(如您所做的那样)之后,您可以转到更复杂的问题“随着时间的推移是否存在一致的性别差异?”当然这个问题可能超出了范围你的“统计工具箱”以正式的方式回答。你可以用线性回归做到这一点的一种方法是为男性和女性模拟就业与失业的几率(或对数几率,如果这更适合)。然后你有一个简单的 ols 模型

yi=β0+β1xi+ei

在哪里yi是“就业”/“失业”的比率,并且xi是一个虚拟变量,如果该比率针对男性,则等于 1,否则为零,并且ei是残差。然后你测试是否β1=0. 您可以进一步使用该模型,并包括时间协变量以及时间和性别之间的交互作用。这是将您的分析工作构建为故事的所有部分(可以说“情节变厚”)。这当然取决于了解多元回归(可能超出课程内容)。

我根本不会使用第一个例子,当然线性回归是不合适的。您的讲师(可能)希望看到一个很好地使用线性回归的示例。当然,我上面给出的 ols 示例也可能不合适——这取决于评估模型。