模型性能估计的交叉验证的有效性

数据挖掘 机器学习 交叉验证 评估
2022-03-07 08:53:25

在应用交叉验证来估计预测模型的性能时,报告的性能通常是所有验证折叠的平均性能。在此过程中,创建了多个模型,必须选择一个模型作为实际用于预测真实世界样本(例如,在产品中)的模型。

我很好奇将验证性能报告为最终(选定)模型的估计性能是否真的有效(因为性能是使用在验证过程中创建的所有其他模型得出的,但在使用最终模型时不考虑预测模型)。

我预计所选模型的性能偏差可能与所有模型的平均性能有很大差异(取决于几个因素,例如使用的算法和验证方案)。

尽管有给定的事实(例如在许多同行评审的科学出版物中),为什么还要使用交叉验证来估计预测模型的性能?在独立测试集上使用所选模型进行额外的性能评估并在验证性能的同时报告结果性能不是更好吗?

1个回答

交叉验证用于估计特定类型模型在特定数据集上的性能。

必须选择一个模型作为实际用于预测真实世界样本(例如在产品中)的模型。

选择交叉验证过程中获得的模型之一是不合适的,以这种方式进行确实会导致您提到的问题。正确的方法是在交叉验证后在完整的训练数据上训练最终模型(即独立于在 CV 期间训练的模型)。这样通过 CV 获得的性能就代表了最终模型的预期性能。