我正在尝试评估和比较使用不同参数(即下采样、异常值去除)和不同分类器(即贝叶斯网络、SVM、决策树)构建的几种不同机器学习模型。
我正在执行一种交叉验证,我随机选择 67% 的数据用于训练集,33% 的数据用于测试集。我执行了几次迭代,比如 20 次。
现在,从每次迭代中,我都能够生成一个混淆矩阵并计算一个 kappa。我的问题是,有哪些方法可以在迭代中聚合这些?我还对汇总准确性和预期准确性等感兴趣。
对于 kappa、准确度和预期准确度,我一直在取平均值。问题之一是当我用聚合平均值和预期平均值重新计算 kappa 时,它与聚合 kappa 不一样。
对于混淆矩阵,我首先对每次迭代的混淆矩阵进行归一化,然后对它们进行平均,以避免出现具有不同总数的混淆矩阵的问题(这可以通过我的交叉验证方案实现)。
当我从这个聚合的混淆矩阵中重新计算 kappa 时,它也与前两个不同。
哪一个最正确?还有另一种计算平均 kappa 的方法更正确吗?
谢谢,如果需要更具体的例子来说明我的问题,请告诉我。