卡方检验中的分组选择

机器算法验证 卡方检验
2022-03-23 16:55:46

假设我有一个分类变量。我尝试使用 Pearson 的卡方检验来检验每个类别具有相同计数的零假设。我可能无法仅使用分类变量来拒绝原假设,但如果我以正确的方式将类别组合在一起,我可以拒绝原假设。(例如{a,b,c}计数高于{d,e,f}.) 看来,如果我根据样本分布选择分组,那么我就过拟合了。在模拟中,我已经能够以正确的方式对均匀分布中的计数类别进行分组,以在我的显着性水平上过于频繁地拒绝零假设。但是,我想对我所犯的这个错误/滥用进行量化。例如,我可能愿意分组{a,d,e},{b,c,f}但在我的上下文中没有其他分区有意义。在这种情况下,如果我考虑所有可能的分区,我会更有信心选择分组或不分组。

有没有办法量化这种类型的过度拟合?我认为它可能隐藏在自由度中,或者它可能是一种参数,AIC 或 BIC 之类的东西可能有用。

1个回答

此过程基本上是 GV Kass 在 1980 年描述的“CHi 平方自动交互检测”或“CHAID”背后的思想。一般设置与您的电视观看预测示例非常相似:您希望最好地预测分类的发生由其他分类变量组合而成的变量。你可以通过找到最大的分裂来做到这一点χ2价值。

(Kass, 1980)中给出了算法的描述和围绕调整统计显着性的问题在那篇论文中,Bonferroni 校正用于调整最大值的选择χ2价值。

一些实际的理论可用于简化为2×2表(卡斯,1975 年)。

有一个R称为CHAID实现算法的包,可在 R-Forge 上使用。

尽管它与您的问题略有不同,但在对连续变量进行二分法以预测另一个二分法变量时会出现类似的情况。也就是说,你应该把切点放在哪里?这在(Miller and Siegmund, 1980)(Halpern, 1982)等中进行了讨论。

出现此类问题的另一个设置是变化点估计或分割,尽管我已经很久没有看过这些论文来回忆作者了。

参考:

Halpern, J. (1982)。小样本的最大选择卡方统计量。生物识别技术,1017-1023。

卡斯,GV(1975 年)。自动交互检测 (AID) 中的显着性测试。应用统计,178-189。

卡斯,GV(1980)。一种用于调查大量分类数据的探索性技术。应用统计学29 (2), 119-127。

Miller, R. 和 Siegmund, D. (1980)。最大选择卡方。技术报告 64斯坦福,加州,斯坦福大学生物统计学系。