卡方检验:拟合优度检验与独立性检验之间的差异

机器算法验证 假设检验 卡方检验 拟合优度 独立 直觉
2022-04-04 01:48:46

关于Pearson 卡方检验,拟合优度检验和独立性检验之间似乎存在细微差别。

令人困惑的是,这两个测试似乎都以非常相似的方式计算。

我的问题:真正的区别是什么?在实践中如何处理?

(注意:这是相关的问题,但不一样:独立性测试与同质性测试

3个回答

1) 拟合优度检验用于测试一组多项计数是否根据预先指定的(即在您看到数据之前!)一组人口比例分布。

2) 同质性检验检验两组(或更多)多项式计数是否来自不同的人口比例组。

3) 独立性测试的测试是针对是否不同于的二元**多项式。pijpipj

**(通常)

有时人们会错误地把第二种情况当作第一种来对待。这低估了比例之间的可变性。(如果一个样本非常大,将其视为总体比例的误差将相对较小。)

Pearson 拟合优度检验和 Pearson 独立性检验之间有 2 个主要区别:

  1. 独立性检验假定您有 2 个随机变量,并且您希望在给定手头样本的情况下测试它们的独立性。另一方面,拟合优度一次对 1 个随机变量起作用。您可以检验 Pearson d 统计量是否大到足以拒绝样本来自假设分布的原假设。您可以这样做 a) 如果所有参数都已知或 b) 如果参数未知且需要估计(例如使用 MLE)。在后一种情况下,Pearson d 统计量的自由度数量会因估计参数的数量而减少。
  2. 但在我看来,拟合优度检验和独立性检验之间的关键区别在于计算预期计数的假设。在拟合优度的情况下,预期计数是在样本来自假设分布的假设下计算的。在独立性检验的情况下,预期计数是在 2 个随机变量独立的假设下计算的,如下所示。假设您有随机变量 A 和 B,每个变量的分区如下面的观察计数表所示。

在此处输入图像描述

要计算第一个单元格的预期计数:

在此处输入图像描述

您可能想要计算两个变量 A 和 B 之间的独立性(独立性检验),或者如果给定 B=B1(第一列)的 A 的分布符合给定 B=B2(第二列)的 A 的分布。也就是说,如果 P(A|B=B1)=P(A|B=B2)。我以@ColorStatistics 在她的回答中发布的数据表为例。

两种计算略有不同,独立性检验考虑了两个分布与预期计数的差异,因此您有更多项但更小(预期计数在观察值“之间”),拟合优度检验考虑到第一个分布与另一个分布的差异(预期计数是第二个分布的值),因此您的项更少但更大。

如果 B 的一个小计比另一个小计大得多并且占大部分元素,这两种方法往往相同,即 B2 元素受提取 B1 元素的影响非常轻微(c2>>c1 和 c2~ N)。在这种情况下,B2 列的预期计数几乎等于它们的值。因此,计算预期计数的差异(独立性检验)与计算 B2 列的差异(拟合优度检验)几乎相同。