机器算法验证 - 为什么卡方检验比 G 检验更受欢迎？ - 吾爱随笔录

为什么卡方检验比 G 检验更受欢迎？

机器算法验证卡方检验拟合优度似然比历史

2022-04-01 10:11:51

Pearson 的卡方检验和G 检验是分类数据的两种拟合优度假设检验，即检验样本是否来自有限集上的给定分布。各自的测试统计由其中是样本大小，是观察到的类别中的项目数，是原假设分布.

χ^{2} = \sum_{i}^{k} \frac{(X_{i} - n p_{i})^{2}}{n p_{i}} and G = 2 \sum_{i}^{k} X_{i} \log (\frac{X_{i}}{n p_{i}}),

$\chi^2 = \sum_i^k \frac{(X_i-np_i)^2}{np_i} ~~~~~ \text{ and } ~~~~~ G = 2\sum_i^k X_i \log\left(\frac{X_i}{np_i}\right),$

n = \sum_{i}^{k} X_{i}

$n = \sum_i^k X_i$

X_{i}

$X_i$

i

$i$

p

$p$

据我所知，G 检验“更好”，但卡方检验更受欢迎。为什么？

更好，我只是指它产生的统计结果（即p值），而不是美学或易用性。的数量很大时（但分布非常集中，例如泊松或几何），G 检验会更好，并且对于更改单个样本也更稳健。维基百科说： “对于测试拟合优度，G 检验比巴哈杜尔意义上的卡方检验效率高得多，但在皮特曼或霍奇斯和莱曼的意义上，这两种检验同样有效。 " $k$ $p$

我能找到的唯一解释来自Wikipedia 上一个无来源（现已删除）的段落：

通过卡方对 G 的近似值是通过自然对数在 1 附近的二阶泰勒展开获得的。这种近似值是由 Karl Pearson 开发的，因为当时计算对数似然比过于费力。^{[需要引用]}随着电子计算器和个人电脑的出现，这不再是一个问题。

是这个原因吗？卡方是用来避免计算对数的？

该站点上的另一个答案建议使用卡方检验而不是 G 检验，“因为 R 具有方便的功能，其中包括模拟 p 值的选项。” 这是合理的，但它让你想知道为什么 G 检验没有 R 函数。

如果任何对统计及其历史有更好了解的人可以对这个问题有所了解，我将不胜感激。也许卡方有一些我不知道的优势，或者它完全是历史性的。

1个回答

Pearson 测试很受欢迎，因为它计算简单——即使没有计算器（或从历史上看，甚至没有日志表）也可以手动计算——但与其他替代方法相比，它通常具有良好的能力；简单意味着它继续在最基本的科目中教授。可能有人会说，在选择中存在技术惯性因素，但实际上我认为 Pearson 卡方在各种情况下仍然是一个容易辩护的选择。

源自似然比检验，Neyman-Pearson 引理表明 G 检验在大样本中应该倾向于具有更大的功效，但通常 Pearson 卡方检验在大样本中具有相似的功效（渐近它应该是等效的在 Pitman 的意义上——下面有一些关于各种渐近线的简短讨论——但在这里，我只是指你倾向于在具有小效应大小和典型显着性水平的大样本中看到的内容，而不用担心特定的测试序列。） $n\to\infty$

另一方面，在小样本中，可用显着性水平的集合比渐近幂的影响更大；我不认为通常会有很大的不同，但在某些情况下，其中一种可能具有优势*。

* 但在这种情况下，将两者结合起来的巧妙技巧可能会更好——也就是说，当你有小样本时，使用一个统计数据来打破另一个（非等效）测试的关系，从而增加可用的显着性水平集——和因此，通过允许 I 类错误率更接近所需的显着性水平来提高能力，而不必做像随机测试那样令人反感的事情。我认为通常这些只有在表格大于 2x2 时才会不同，在这种情况下，它也可以与 rxc 版本的 Fisher 精确检验一起使用；在这种情况下，所有三个测试的表格排序往往会有所不同，因此任何测试统计的离散性都可以通过添加第二阶段的平局来更精细地分解，在某些情况下，允许显着更精细的潜在显着性水平范围。这有时可以通过允许实际显着性水平更接近某个期望的任意值而不依赖随机测试来帮助很多（这在实践中可能不是特别可口，理论上它们的所有价值）。

和，Pearson 和 G 检验都可以放入（Cressie-Read）功率散度统计集（Cressie 和 Read，1984 [1]）中；这一系列统计包括其他几个先前定义的统计，例如 Neyman ( ) 和 Freeman-Tukey 统计 ( ) 等，在这种情况下 - 考虑到几个标准 - Cressie 和 Read建议具有的统计量是统计量的一个很好的折衷选择。 $\lambda=1$ $\lambda=0$ $\lambda=-2$ $\lambda=\frac12$ $\lambda=\frac23$

效率问题值得一提；每个定义都比较了两个测试下样本大小的比率。松散地说，Pitman 效率考虑了一系列具有固定水平的测试，其中样本量在一系列越来越小的效应量上达到相同的功效，而 Bahadur 效率保持效应量固定并考虑一系列降低的显着性水平。（Hodges-Lehmann 效率保持显着性水平和效应大小不变，并使 II 型错误率降低至 0。） $\alpha$

除了一些统计学家之外，大多数统计用户考虑使用不同的显着性水平似乎并不常见。从这个意义上说，如果一系列增加的样本量可用，我们可能倾向于看到的那种行为将保持显着性水平恒定（因为所有其他选择可能更明智；可能难以计算）。无论如何，皮特曼效率是最常用的。

关于这个话题，P. Groeneboom 和 J. Oosterhoff (1981) [2] 提到（在他们的摘要中）：

当样本量适中或较小时，Bahadur 意义上的渐近效率通常被证明是对两个测试的相对性能的相当不令人满意的度量。

关于从维基百科中删除的段落；这完全是胡说八道，它被正确地删除了。直到皮尔逊关于卡方检验的论文发表几十年后，似然比检验才被发明出来。在前计算器时代计算似然比统计数据的笨拙对 Pearson 来说毫无意义，因为根本不存在似然比检验的概念。从皮尔逊的原始论文中可以清楚地看出皮尔逊的实际考虑。正如我所看到的，他直接从多项分布的多元正态近似中的指数中 $-\frac12$

如果我现在写同样的东西，我会将其描述为与空值下预期值的（平方）马氏距离。

这让你想知道为什么 G 检验没有 R 函数。

它可以在一两个包中找到。但是，计算起来非常简单，我从不费心加载它们。相反，我通常直接从计算 Pearson 卡方统计量的函数返回的数据和预期值计算它（或者偶尔 - 至少在某些情况下 - 我从glm函数的输出计算它）。

除了通常的chisq.test调用之外，只需几行就足够了；每次从头开始编写它比加载一个包来完成它更容易。实际上，您还可以根据 G 检验统计量（在两个边距上进行调节）进行“精确”测试 - 使用相同的方法chisq.test，通过使用r2dtable生成任意数量的随机表（我倾向于使用很多比chisq.testR 中使用的默认表更多的表，除非原始表太大以至于需要很长时间）

参考

[1]：Cressie, N. 和 Read, TR (1984)，
“多项拟合优度检验”。
皇家统计学会杂志：B 系列（方法论），46，p。440-464。

[2]：P. Groeneboom 和 J. Oosterhoff (1981)，
“ Bahadur 效率和小样本效率”。
国际统计评论，49，p。127-141。

其它你可能感兴趣的问题

上一篇回归x到y的最小二乘估计量下一篇为什么 glm() 无法恢复真实参数？