似乎存在两种计算模型的折交叉验证性能的方法。
对于每一折,评估保留观察的性能度量(例如 MSE)。然后,计算这些值的平均值。
对于每个折叠,计算对保留集的预测。然后,从所有汇总的预测中计算单个性能分数。
在我看来,第一种方法在并行计算中更容易实现,而第二种方法在某种意义上对于小保持集更稳定。例如,以 R 平方作为绩效衡量标准的留一式 CV。在那里,只有选项 2 是可能的。
两种选择都被认为是正确的吗?对此有什么好的参考或提示吗?
似乎存在两种计算模型的折交叉验证性能的方法。
对于每一折,评估保留观察的性能度量(例如 MSE)。然后,计算这些值的平均值。
对于每个折叠,计算对保留集的预测。然后,从所有汇总的预测中计算单个性能分数。
在我看来,第一种方法在并行计算中更容易实现,而第二种方法在某种意义上对于小保持集更稳定。例如,以 R 平方作为绩效衡量标准的留一式 CV。在那里,只有选项 2 是可能的。
两种选择都被认为是正确的吗?对此有什么好的参考或提示吗?
正如您所说,第二种方法更适用于小型保留集(或者如果您愿意,与您的数据集相比在极端情况下,您几乎总是会使用第二个来省略一个。得分之前请三思而后行。)
第一个优点是您可以将多个性能指标(每折一个)用于 t 检验等。(但您必须使用更正的重采样标准错误来更正伪复制。)
如果您有足够的 RAM 来并行运行与 CPU 内核一样多的算法实例,那么这两种方法都很容易并行化。两种方法之间的唯一区别是计算性能指标的时间。无论如何,这部分对您的计算机来说只是很小的努力。