机器算法验证 - 留一法交叉验证：泛化性能的相对无偏估计？ - 吾爱随笔录

留一法交叉验证：泛化性能的相对无偏估计？

机器算法验证交叉验证模型选择偏见

2022-04-05 12:42:06

我已经读过，留一法交叉验证提供了一个相对“对真实泛化性能的无偏估计”（例如，这里），这是留一法 CV 的一个有利属性。

但是，我看不出这是如何从留一式 CV 的属性得出的。为什么这个估计器的偏差与其他估计器相比低？

更新：

我一直在研究这个话题，我相信这与这个估计器比 K 折验证更悲观的事实有关，因为它使用除了一个实例之外的所有数据，但是阅读数学这个的推导。

1个回答

我认为不需要对以下事实进行数学推导：在 ML 中，随着训练测试规模的增加，预测错误率会降低。正如您所观察到的，与 k 折验证相比，LOO 最大化了训练集的大小。

但是，LOO 可能对“孪生”敏感——当您拥有高度相关的样本时，使用 LOO 您可以保证对于用作测试集的每个样本，剩余的“孪生”将在训练集中。当 LOO 被 10 倍交叉验证（或分层验证，例如，如果样本是配对的）代替时，可以通过准确度的快速下降来诊断这一点。根据我的经验，如果您的数据集通常很小，这可能会导致灾难。

在一个完美的世界里，你还有一个验证集，你永远不会用它来训练你的模型，即使在 CV 设置中也是如此。您保留它的唯一目的是在发送论文之前测试模型的最终性能:-)

其它你可能感兴趣的问题

上一篇绘制图形的力导向方法下一篇当因变量在 0 和 1 之间时，合适的回归模型？