机器算法验证 - 比例同质性卡方检验的事后成对比较 - 吾爱随笔录

比例同质性卡方检验的事后成对比较

机器算法验证 r 卡方检验

2022-04-21 14:01:47

我正在寻找“比例同质性卡方检验的事后成对比较”（或其等效项），如下所述：http: //epm.sagepub.com/cgi/content/abstract /53/4/951 然而，除了那篇文章，我找不到一个 R 包来做这个，或者任何其他形式的软件。我希望我只是消息灵通

我的情况是在 2 x X 矩阵上进行卡方检验。我发现了一个差异，但我想知道哪些科目对差异“负责”。

以前在这里有人问过这个问题，但没有得到答复。在此期间有什么变化吗？我也在找这个。

1个回答

具有显着的卡方并不一定意味着一个主题与其他主题不同。但是，如果是这种情况，解决此问题的一种方法是拟合逻辑回归模型并对其进行对比，将每个预测与其他预测的平均值进行比较。

这是一个例子。首先，一个假数据集：

> fake = data.frame(
+   subj = factor(1:5),
+   pos = c(34, 36, 40, 62, 35),
+   neg = c(66, 64, 60, 38, 65))

拟合逻辑回归模型并获得偏差

> fake.glm = glm(cbind(pos, neg) ~ subj, family = binomial(), data = fake)

> anova(fake.glm)
Analysis of Deviance Table
Model: binomial, link: logit
Response: cbind(pos, neg)
Terms added sequentially (first to last)

     Df Deviance Resid. Df Resid. Dev
NULL                     4     22.486
subj  4   22.486         0      0.000

偏差统计量是卡方检验，但与常用的 Pearson 卡方不同。具有 4 df 的 22.486 的卡方是显着的。

lsmeans包提供了一种获得事后对比的方法。其他可能性包括multcomp和effects。

> library(lsmeans)
> ( fake.lsm = lsmeans(fake.glm, "subj") )
 subj     lsmean        SE df   asymp.LCL    asymp.UCL
 1    -0.6632942 0.2111002 NA -1.07704294 -0.249545496
 2    -0.5753641 0.2083333 NA -0.98368998 -0.167038315
 3    -0.4054651 0.2041241 NA -0.80554108 -0.005389135
 4     0.4895482 0.2060214 NA  0.08575368  0.893342771
 5    -0.6190392 0.2096570 NA -1.02995931 -0.208119103

Confidence level used: 0.95

上表总结了预测值 $\log\{p/(1-p)\}$ ，以及 SE 和置信区间。您还可以获得这些结果的可视化显示：

> plot(fake.lsm)

在此处输入图像描述

以下获得估计和相关 $t$ 将这些中的每一个与其他的平均值进行比较的统计数据：

> contrast(fake.lsm, "del.eff")
 contrast    estimate        SE df    z.ratio p.value
 1 effect -0.38571416 0.2351174 NA -1.6405175  0.2523
 2 effect -0.27580157 0.2327922 NA -1.1847544  0.2952
 3 effect -0.06342777 0.2292697 NA -0.2766513  0.7821
 4 effect  1.05533890 0.2308552 NA  4.5714324  <.0001
 5 effect -0.33039540 0.2339036 NA -1.4125281  0.2630

P value adjustment: fdr method for 5 tests

我们发现主题 4 的预测明显高于其他人的平均水平。当del.eff指定对比时，FDR（错误发现率）是多重测试的默认调整。它似乎适合这种应用程序。

如果您愿意，您可以改为根据 $p$ , 而不是 logits。

> ( fake.lsmp = regrid(fake.lsm, transform = TRUE) )
 subj prob         SE df asymp.LCL asymp.UCL
 1    0.34 0.04737088 NA 0.2471548 0.4328452
 2    0.36 0.04800000 NA 0.2659217 0.4540783
 3    0.40 0.04898979 NA 0.3039818 0.4960182
 4    0.62 0.04853864 NA 0.5248660 0.7151340
 5    0.35 0.04769696 NA 0.2565157 0.4434843

Confidence level used: 0.95

...并在此对象上使用类似的命令来获得对比或绘图。

这些方法可能与您链接的参考不完全相同，但它们的作用相同。

其它你可能感兴趣的问题

上一篇不恰当的先验可以以某种方式实施吗？下一篇Enigma密码机密码分析中的统计分析（保护Ultra中的情报源）