Karl Pearson 是如何得出卡方统计量的?

机器算法验证 卡方检验 描述性统计 历史
2022-02-16 09:49:19

皮尔逊是如何在 1900 年得出以下皮尔逊卡方统计数据的?

K=(OijEij)2Eij
Kχ2

他是否已经考虑过卡方并设计了度量(自下而上的方法),或者他是否设计了统计数据并后来证明它遵循卡方分布(自上而下)?K

我想知道他为什么选择那个特定的形式而不是其他形式,例如,以及为什么他用分母划分平方。(OijEij)2|OijEij|

1个回答

皮尔逊 1900 年的论文已无版权,因此我们可以在线阅读。

您应该首先注意本文是关于拟合优度测试,而不是独立性或同质性测试。

他继续使用多元正态,卡方作为标准化正态变量的平方和而出现。

您可以从 p160-161 的讨论中看到,他清楚地讨论了将测试应用于多项分布式数据(我认为他在任何地方都没有使用该术语)。他显然理解多项式的近似多元正态性(当然他知道边距近似正态 - 这是一个非常古老的结果 - 并且知道均值、方差和协方差,因为它们在论文中有所说明);我的猜测是,到 1900 年,这些东西中的大部分已经过时了。(请注意,卡方分布本身可以追溯到 Helmert 在 1870 年代中期的工作。)

然后在 p163 的底部,他得出了一个卡方统计量作为“拟合优度的度量”(统计量本身出现在多元正态近似的指数中)。

然后他继续讨论如何评估 p 值*,然后他正确地给出了 43.87 之外的的上尾面积为 0.000016。[但是你应该记住,他在那个阶段没有正确理解如何调整参数估计的自由度,所以他论文中的一些例子使用了太高的 df]χ122

*(请注意,Fisherian 和 Neyman-Pearson 测试范式都不存在,但我们清楚地看到他已经应用了 p 值的概念。)

您会注意到他没有明确写出类的术语。相反,他为预期计数写等,对于观察到的数量,他使用等等。然后,他定义(下半部分 p160)并计算(参见 eq. (xv) p163 和 p167 底部表格的最后一列)......等量,但以不同的表示法。(OiEi)2/Eim1m2m1e=mme2/m

目前理解卡方检验的大部分方法还没有到位,但另一方面,已经有相当多的方法了(至少如果你知道要寻找什么的话)。1920 年代(及以后)发生了很多事情,改变了我们看待这些事情的方式。


至于为什么我们在多项式情况下除以,碰巧的是,即使多项式中各个分量的方差小于,当我们考虑协方差时,它也相当于只除以,得到了很好的简化。EiEiEi


在编辑中添加:

Plackett 1983 年的论文提供了大量的历史背景,并为该论文提供了一些指导。我强烈建议看看它。看起来它是通过 JStor 在线免费提供的(如果您登录),因此您甚至不需要通过机构访问来阅读它。

Plackett, RL (1983),
“Karl Pearson 和卡方检验”,
国际统计评论
卷。51,第 1 期(4 月),第 59-72 页