这两个问题的答案都是肯定的:
- 是的,LOO 确实有悲观的偏见,而且
- 是的,所描述的额外悲观偏见的影响是众所周知的。
Richard Hardy 的回答很好地解释了正确执行的重采样验证(包括所有类型的交叉验证)的众所周知的轻微悲观偏见。
但是,问题正文中讨论的机制,即删除在某种意义上极端的情况将给出测试/训练子集拆分,其中训练子集特别不代表要测试的子集。正如Sammy 已经解释的那样,这可能会导致额外的错误。因此,这种高错误的原因是,对于训练空间之外(或边缘)的情况,预测性能恶化得非常快。
该怎么做才能对抗这种影响?
对于这种情况有不同的观点,这将取决于您对手头任务的判断,哪个适用以及如何处理。
- 一方面,这可能被视为对类似极端的应用案例(有点超出训练空间)的预期错误的指示——并且在重采样期间遇到此类情况可以被视为表明构建模型的类似极端案例在生产使用过程中会遇到整个数据集。
从这个角度来看,附加误差不是偏差,而是一种评估,包括在训练空间之外的轻微外推,被判断为代表生产使用。
- 另一方面,在额外的约束/要求/假设下建立模型是完全有效的,即不应在训练空间之外进行预测。理想情况下,这样的模型应该拒绝对其训练域之外的案例的预测,这种模型的预测测试用例的 LOO 错误不会更糟,但会遇到很多拒绝。
现在,有人可以争辩说,由于所描述的对训练和测试子集群体的相反影响,遗漏的机制产生了不具代表性的高比例的外部训练空间案例。这可以通过研究各种或的偏差和方差特性来分别用于留出和k验证。这样做,在某些情况下(数据集 + 模型组合),遗漏一个会表现出更大的悲观偏差,这是预期的遗漏多于一个。(参见 Sammy 链接的 Kohavi 论文;还有其他论文报告了这种行为)knnk
我可能会补充说,由于留一法具有其他不良特性(将模型稳定性与训练用例的随机误差与测试用例的随机误差混为一谈),我无论如何都建议不要在可行的情况下使用 LOO。
重采样验证的分层变体通过设计产生更紧密匹配的训练和测试亚群,它们可用于分类和回归。
采用这种分层是否合适基本上是对手头任务的判断问题。
但是,留一法与其他重采样验证方案的不同之处在于它不允许分层。因此,如果应该使用分层,那么遗漏一个不是一个合适的验证方案。
这种特殊的悲观偏见何时出现?
- 这是一个小样本量问题:在所描述的模型中,只要每个工作日的“箱”中有足够的案例,即使漏掉一个极端案例也会导致训练均值的波动,即 << 温度分布对于那个工作日,对观察到的误差的影响可以忽略不计。
- 高维输入/特征/训练空间有更多“可能性”使情况在某些方向上变得极端:在高维空间中,大多数点往往位于“外部”。这与维度灾难有关。
- 它还与模型复杂性有关,边缘情况的高误差表明模型在训练区域之外立即不稳定。