我需要比较 2 个多类分类器。因此,为了评估两者之间的差异是否具有统计学意义,我采取了以下步骤:
- 使用模型 1 获得对测试数据的预测
- 使用模型 2 获得对测试数据的预测
- 在模型 1 的预测和模型 2 的预测之间构建混淆矩阵
- 使用 Stuart Maxwell 检验测试边际同质性,并以此方式比较 2 个分类器之间的差异是否显着
这将是解决此任务的正确方法吗?
我选择了这种方法,因为我使用的数据集很大(约 1 百万条记录)并且我的目标变量有 10 个类。数据集已分为训练/测试/验证。在他 1998 年的论文中,Thomas Dietterich 在那些使用交叉验证成本高昂或不切实际的情况下推荐了 McNemar 检验。由于 Stuart Maxwell 检验是 McNemar 检验的替代方案,当涉及到 2 个以上的结果时,我选择它来测试我的模型。
我真的很感激对此的任何意见/建议!
谢谢!