非常简短的回答:
卡方检验(chisq.test()
在 R 中)将列联表的每个类别中观察到的频率与预期频率(计算为边际频率的乘积)进行比较。它用于确定观察到的计数和预期计数之间的偏差是否太大而不能归因于偶然性。通过检查残差可以很容易地检查是否偏离了独立性(尝试?mosaicplot
或?assocplot
,但还要查看vcd
包)。用于fisher.test()
精确测试(依赖于超几何分布)。
R 中的prop.test()
函数允许测试组之间的比例是否具有可比性或与理论概率没有差异。它被称为一个z-test 因为测试统计数据看起来像这样:
z=(f1−f2)p^(1−p^)(1n1+1n2)−−−−−−−−−−−−−−−−√
在哪里p^=(p1+p2)/(n1+n2), 和指数(1,2)请参阅表格的第一行和第二行。在双向列联表中H0:p1=p2,这应该会产生与普通的可比较的结果χ2测试:
> tab <- matrix(c(100, 80, 20, 10), ncol = 2)
> chisq.test(tab)
Pearson's Chi-squared test with Yates' continuity correction
data: tab
X-squared = 0.8823, df = 1, p-value = 0.3476
> prop.test(tab)
2-sample test for equality of proportions with continuity correction
data: tab
X-squared = 0.8823, df = 1, p-value = 0.3476
alternative hypothesis: two.sided
95 percent confidence interval:
-0.15834617 0.04723506
sample estimates:
prop 1 prop 2
0.8333333 0.8888889
对于使用 R 分析离散数据,我强烈推荐Laura Thompson的 R (and S-PLUS) Manual to Accompany Agresti's Categorical Data Analysis (2002)。