在应用交叉验证来估计预测模型的性能时,报告的性能通常是所有验证折叠的平均性能。在此过程中,创建了多个模型,必须选择一个模型作为实际用于预测真实世界样本(例如,在产品中)的模型。
我很好奇将验证性能报告为最终(选定)模型的估计性能是否真的有效(因为性能是使用在验证过程中创建的所有其他模型得出的,但在使用最终模型时不考虑预测模型)。
我预计所选模型的性能偏差可能与所有模型的平均性能有很大差异(取决于几个因素,例如使用的算法和验证方案)。
尽管有给定的事实(例如在许多同行评审的科学出版物中),为什么还要使用交叉验证来估计预测模型的性能?在独立测试集上使用所选模型进行额外的性能评估并在验证性能的同时报告结果性能不是更好吗?