最近我遇到了一篇论文,该论文建议在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行 k 折交叉验证,并报告最佳超参数配置的交叉验证结果。
据我所知,这个结果是有偏差的,他们应该保留一个单独的测试集,以获得对未用于执行超参数优化的样本的准确度估计。
我对吗?您能否提供一些描述交叉验证滥用的参考资料(最好是研究论文)?
最近我遇到了一篇论文,该论文建议在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行 k 折交叉验证,并报告最佳超参数配置的交叉验证结果。
据我所知,这个结果是有偏差的,他们应该保留一个单独的测试集,以获得对未用于执行超参数优化的样本的准确度估计。
我对吗?您能否提供一些描述交叉验证滥用的参考资料(最好是研究论文)?
是的,仅报告 k 倍 CV 结果存在问题。您可以使用例如以下三个出版物来达到您的目的(当然还有更多)来为人们指明正确的方向:
考利和塔尔博特 (2010)。“关于模型选择中的过度拟合和性能评估中的后续选择偏差。” 机器学习研究杂志, 11: 2079-2107
Bengio & Grandvalet (2004)。“没有无偏估计的方差-折叠交叉验证。”机器学习研究杂志,5:1089–1105
我个人喜欢这些,因为他们试图用简单的英语而不是数学来陈述问题。