假设我有一个分类变量。我尝试使用 Pearson 的卡方检验来检验每个类别具有相同计数的零假设。我可能无法仅使用分类变量来拒绝原假设,但如果我以正确的方式将类别组合在一起,我可以拒绝原假设。(例如计数高于.) 看来,如果我根据样本分布选择分组,那么我就过拟合了。在模拟中,我已经能够以正确的方式对均匀分布中的计数类别进行分组,以在我的显着性水平上过于频繁地拒绝零假设。但是,我想对我所犯的这个错误/滥用进行量化。例如,我可能愿意分组但在我的上下文中没有其他分区有意义。在这种情况下,如果我考虑所有可能的分区,我会更有信心选择分组或不分组。
有没有办法量化这种类型的过度拟合?我认为它可能隐藏在自由度中,或者它可能是一种参数,AIC 或 BIC 之类的东西可能有用。