机器算法验证 - 交叉验证滥用（报告最佳超参数值的性能） - 吾爱随笔录

机器算法验证交叉验证参考模型选择模型评估

2022-02-03 19:52:03

最近我遇到了一篇论文，该论文建议在特定数据集上使用k-NN分类器。作者使用所有可用的数据样本对不同的k值执行 k 折交叉验证，并报告最佳超参数配置的交叉验证结果。

据我所知，这个结果是有偏差的，他们应该保留一个单独的测试集，以获得对未用于执行超参数优化的样本的准确度估计。

我对吗？您能否提供一些描述交叉验证滥用的参考资料（最好是研究论文）？

1个回答

是的，仅报告 k 倍 CV 结果存在问题。您可以使用例如以下三个出版物来达到您的目的（当然还有更多）来为人们指明正确的方向：

我个人喜欢这些，因为他们试图用简单的英语而不是数学来陈述问题。

其它你可能感兴趣的问题