使用 k 折交叉验证,你平均所有ķk建立最终模型的模型?

机器算法验证 交叉验证
2022-02-12 22:00:14

在执行 k-fold 交叉验证时,我知道您通过将除一个之外的所有折叠指向该折叠并进行预测来获得准确性指标,然后重复此过程k次。然后,您可以在所有实例上运行准确度指标(精度、召回率、正确分类百分比),这应该与您每次计算它们然后平均结果相同(如果我错了,请纠正我)。

您想要的最终结果是最终模型。

您是否对获得的模型进行平均以使您的集合k预测最终得到具有通过上述方法获得的准确度指标的模型?

1个回答

目标是k- 折叠交叉验证不是为了产生模型;就是比较模型。

交叉验证实验的结果可以告诉您支持向量机在您的数据上的表现优于朴素贝叶斯,或者对于这个特定的数据集,分类器的超参数应该设置为 c。有了这些知识,您就可以使用所有可用数据训练“生产”分类器并将其应用于您的问题。

在许多情况下,甚至不清楚如何对多个模型进行平均。例如,三个决策树或最近邻分类器的平均值是多少?

重要的是要记住,交叉验证结果是估计,而不是保证,如果生产分类器使用相似质量(和数量)的数据进行训练,这些估计会更有效。在开发使用这些估计进行推理的方法方面已经做了大量工作。也就是说,从统计学上讲,在这些数据上,方法 A 通常优于方法 B。