假设我用 K=10 折进行 K 折交叉验证。每一折都会有一个混淆矩阵。报告结果时,我应该计算什么是平均混淆矩阵,还是只对混淆矩阵求和?
K-fold 交叉验证如何报告混淆矩阵?
机器算法验证
机器学习
交叉验证
准确性
2022-02-05 20:54:42
1个回答
如果您正在测试模型的性能(即不优化参数),通常您会对混淆矩阵求和。可以这样想,您已将数据分成 10 个不同的折叠或“测试”集。您在 9/10 的折叠上训练模型并测试第一个折叠并获得混淆矩阵。这个混淆矩阵代表了 1/10 数据的分类。您使用下一个“测试”集再次重复分析,并获得另一个混淆矩阵,代表另外 1/10 的数据。将这个新的混淆矩阵添加到第一个现在代表了 20% 的数据。你继续,直到你跑完所有的折叠,对所有的混淆矩阵求和,最终的混淆矩阵代表该模型对所有数据的性能. 您可以对混淆矩阵进行平均,但这并不能真正从累积矩阵中提供任何额外信息,并且如果您的折叠大小不完全相同,则可能会出现偏差。
注意- 这假设您的数据不重复采样。我不完全确定这对于重复采样是否会有所不同。如果我学到一些东西或有人推荐一种方法,将会更新。
其它你可能感兴趣的问题