我学的是理科,统计学知识比较肤浅。
问题
我必须找到一个数据集并尽我所能分析它,作为我的统计课程的作业。这不再是一项任务,我只需要帮助解释为什么我的分析做得不好以及我应该做什么。
我使用了新西兰就业率的分类数据集,计划将其排列在一个 2x2 列联表中,并使用 Pearson 的卡方检验和 Fisher 的精确检验来检验性别是否与就业相关。
我想回答什么
- 了解为什么我不能对这个问题使用卡方检验和 Fisher 精确检验,并了解我应该使用什么。我假设“作为时间函数的优势比”?关于如何做到这一点的任何有用的链接,在 R 中完美吗?
- 了解有关作业第一部分的“顺序相关”评论以及我应该做什么。
帮助我的方法#1(更短)
这就是我们的数据的样子(基于人口普查):
Male Female
Employed 1201600 1060200
Unemployed 73300 75000
我在 R 中进行了卡方检验和 Fisher 精确检验,假设所获得的 p 值将告诉我在 null 为真(男性和女性获得工作的机会均等)。我得到了一个非常小的 p 值,Fisher 的检验给了我 1.16 的优势比,这意味着存在相关性,特别是男性在新西兰找到工作的可能性要高 16%。
但是,根据我的讲师的说法,我不恰当地使用了这些测试。我不太明白为什么,但我认为他是说这些测试假设独立,并且由于新西兰有一定数量的工作,我们的样本不是独立的......不过我不确定(你可以看到下面引用的他的反馈)。
帮助我的方法#2(更长)
如果您有空闲时间,如果您能看一下整个作业,我将不胜感激。我还会提供讲师的反馈,所以如果你能帮我解释一下,那就太好了!对于数学家/统计学家来说,这项作业非常容易,那里只有两个问题,它只是充满了填充,我试图证明我知道我在做什么,你可以跳过大部分。
这是我没有成功完成的作业的 PDF 文件的链接:statistics assignment.pdf。
讲师反馈
您的图 1 展示了顺序相关性,这是线性回归不起作用的真正原因。Fisher 检验和卡方检验都不适合您的 2x2 表。这是因为您想测试同质性,但由于非独立性(这并不有趣)而拒绝了 null。两者之间的区别在这里无关紧要(在任何情况下它们都是渐近相同的)。您可以将优势比绘制为时间的函数。