数据挖掘 - 使用 Stuart Maxwell 测试比较两个多类机器学习分类器 - 吾爱随笔录

我需要比较 2 个多类分类器。因此，为了评估两者之间的差异是否具有统计学意义，我采取了以下步骤：

使用模型 1 获得对测试数据的预测
使用模型 2 获得对测试数据的预测
在模型 1 的预测和模型 2 的预测之间构建混淆矩阵
使用 Stuart Maxwell 检验测试边际同质性，并以此方式比较 2 个分类器之间的差异是否显着

这将是解决此任务的正确方法吗？

我选择了这种方法，因为我使用的数据集很大（约 1 百万条记录）并且我的目标变量有 10 个类。数据集已分为训练/测试/验证。在他 1998 年的论文中，Thomas Dietterich 在那些使用交叉验证成本高昂或不切实际的情况下推荐了 McNemar 检验。由于 Stuart Maxwell 检验是 McNemar 检验的替代方案，当涉及到 2 个以上的结果时，我选择它来测试我的模型。

我真的很感激对此的任何意见/建议！

谢谢！