我经常看到人们将 5x2 交叉验证作为嵌套交叉验证的一个特例。
我假设第一个数字(这里:5)是指内循环中的折叠数,第二个数字(这里:2)是指外循环中的折叠数?那么,这与“传统”的模型选择和评估方法有何不同?我所说的“传统”是指
- 将数据集拆分为单独的训练集(例如 80%)和测试集
- 使用 k 折交叉验证(例如,k=10)在训练集上进行超参数调整和模型选择
- 使用测试集评估所选模型的泛化性能
除了如果 k=2 时测试集和训练集的大小相等之外,5x2 不是完全相同吗?
我经常看到人们将 5x2 交叉验证作为嵌套交叉验证的一个特例。
我假设第一个数字(这里:5)是指内循环中的折叠数,第二个数字(这里:2)是指外循环中的折叠数?那么,这与“传统”的模型选择和评估方法有何不同?我所说的“传统”是指
除了如果 k=2 时测试集和训练集的大小相等之外,5x2 不是完全相同吗?
就我在文献中看到的而言,5x2cv 总是指 2 倍的 5 次重复。根本没有嵌套。做 2 倍(训练和测试之间的比例为 50/50),再重复 4 次。5x2cv 是由 Dietterich 的论文Approximate statistics tests for comparison supervised classification learning algorithms推广的,它不仅可以很好地估计泛化误差,还可以很好地估计该误差的方差(以便执行统计测试)
外循环 2 次重复意味着您在整个火车组上重复 5 倍 CV 2 次。每次细分成折叠都会不同。
这主要用于更好地估计模型性能,例如对一个模型是否在统计上显着优于另一个模型进行统计测试。
如果您的数据集很大且没有异常值,则嵌套 CV 并不重要。如果您的数据确实有异常值,则交叉验证的性能可能会因这些异常值所在的折叠/折叠而有很大差异。因此,您可以多次重复 CV。