皮尔逊残差

机器算法验证 卡方检验 拟合优度 残差
2022-02-09 12:21:41

关于拟合优度卡方检验背景下皮尔逊残差的初学者问题:

除了检验统计量之外,Rchisq.test函数还报告 Pearson 残差:

(obs - exp) / sqrt(exp)

我理解为什么查看观察值和预期值之间的原始差异并不能提供太多信息,因为较小的样本会导致较小的差异。但是,我想更多地了解分母的影响:为什么要除以期望值的根?这是“标准化”残差吗?

2个回答

列联表分析的标准统计模型是假设(不以总计数为条件)细胞计数是独立的泊松随机变量。因此,如果您有一个列联表,则用作分析基础的统计模型将每个单元格计数无条件分布:n×m

Xi,j ~ Pois(μi,j)

一旦您为列联表或行或列计数施加总单元格计数,则单元格计数的结果条件分布将变为多项式。在任何情况下,对于泊松分布,我们有,所以标准化单元计数是:E(Xi,j)=V(Xi,j)=μi,j

STD(Xi,j)Xi,jE(Xi,j)V(Xi,j)=Xi,jμi,jμi,j

因此,您在查询的公式中看到的是标准化细胞计数,假设细胞计数具有(无条件)泊松分布。

从这里开始测试数据中行和列变量的独立性是很常见的,在这种情况下,您可以使用检验统计量来查看上述值的平方和(相当于平方范数的标准化值向量)。卡方检验基于对检验统计量的零分布的大样本逼近为此类检验提供 p 值。它通常应用于销售数量都不是太少的情况。

在拟合优度方面,您可以参考此http://www.stat.yale.edu/Courses/1997-98/101/chigf.htm

如果您想知道分母是如何到达那里的,则必须将此处的卡方视为二项式的正常近似值,对于初学者,然后可以将其扩展到多项式。