为什么使用 McNemar 的测试χ2χ2而不是正态分布?

机器算法验证 分布 正态分布 二项分布 mcnemar 测试 卡方分布
2022-03-27 02:34:59

我刚刚注意到非精确 McNemar 测试如何使用χ2渐近分布。但是由于精确测试(对于两个案例表)依赖于二项分布,为什么建议对二项分布进行正态近似并不常见?

2个回答

一个接近直觉的答案:

给定表格,仔细查看 McNemar 检验的公式

      pos | neg
----|-----|-----
pos |  a  |  b
----|-----|-----
neg |  c  |  d

McNemar 统计M量计算如下:

=(b-C)2b+C

一个的定义χ2k 个自由度的分布是它由k 个独立标准正态变量的平方和组成。如果 4 个数字足够大,则bc,因此b-cb+c可以近似为正态分布。给定 M 的公式,很容易看出,具有足够大的值M确实会遵循大约 aχ2自由度为 1 的分布。


编辑:正如 onstop 正确指出的那样,正常的近似值实际上是完全等价的。b-c考虑到使用正态分布近似的论点,这相当微不足道。

确切的二项式版本也等价于符号检验,因为在这个版本中,二项式分布用于b比较一世n(b+C,0.5). 或者我们可以说,在原假设下,b 的分布可以近似为ñ(0.5×(b+C),0.52×(b+C).

或者,等效地:

b-(b+C2)b+C2ñ(0,1)

这简化为

b-Cb+Cñ(0,1)

或者,当取两边的正方形时,χ12.

因此,使用正态近似它与χ2近似。

这两种方法会不会是同一件事?相关的卡方分布具有一个自由度,因此只是具有标准正态分布的随机变量的平方分布。我必须通过代数来检查,我现在没有时间去做,但如果你最终没有得到完全相同的答案,我会感到惊讶。