为什么 k 折交叉验证生成的 MSE 估计量具有较高的偏差,但方差较低,然后留一法交叉验证?

机器算法验证 交叉验证 偏差-方差-权衡
2022-04-08 06:27:52

看起来这篇文章接受的答案背后的理由是不正确的。

在留一交叉验证(LOOCV)下,其 MSE 估计量的方差为

var[Σixin]=var[Σixi]n2
在哪里xi是一个特定迭代的 MSE 估计值。

我同意 LOOCV 具有更高的枚举数(协方差项的 b/c),但分母也更大,因为基本上有 n 个估计值(在 k 倍情况下大于 k 个估计值)。

鉴于此,为什么 LOOCV 在估计 MSE 时仍然有更高的方差,为什么它的偏差更低?

(这违反直觉 b/c 增加样本应该减少方差并保持偏差不变θ^y^)

2个回答

在 stats.stackexchange 和科学文献中,关于这个话题有很多争论、困惑和矛盾。

Bengio & Grandvalet在 2004 年的研究中发表了一篇有用的论文,该论文认为交叉验证估计量的方差是三个矩的线性组合:

var=1n2i,jCov(ei,ej)
=1nσ2+m1nω+nmnγ

其中每个术语是n×n协方差矩阵Σ交叉验证错误e=(e1,...,en)T

在此处输入图像描述

正如@Amoeba 在上面的评论中指出的那样,这种差异并不是一个简单的函数K. 每个数据点xi导致错误项ϵi将其汇总到 MSE 中。变化K对 CV 估计量的方差没有直接的、代数上直接的影响。

k-fold CV 任意值为k为每一个产生一个错误n观察。所以MSE估计总是有分母n. 这个分母在 LOOCV 和例如 10 倍 CV 之间没有变化。这是您在这里的主要困惑。

现在,这个方差方程比看起来要微妙得多。特别是条款ωγ数据集、训练集、测试集等之间的相关性和模型不稳定性的影响。这两个效果值的影响K这解释了为什么不同的数据集和模型会导致不同的行为,

您需要通读大量(和技术)文献才能真正掌握其中的微妙之处和特殊情况。

除了泽维尔的回答:

为什么 LOOCV 在估计 MSE 时仍然有更高的方差,为什么它的偏差更低

  • 我们是否知道观察到 LOO 的高方差的情况是否与它也具有低偏差的情况相同?

  • 我知道一种特殊情况(LOO、小样本量、考虑到训练中类的相对频率的分类器)会导致高度悲观偏差。现在对于某些高度使用的品质因数,例如错误分类百分比或准确性或测试用例的类似比例,大的悲观偏差通常会导致更大的方差,因为对于这些品质因数,方差在数学上与它们的大小相关(对于50%)。

  • “LOO 的低 [悲观] 偏差”通常是从学习曲线中争论出来的:如果,而不是带走m训练用例,只留下 1 个训练用例,代理模型平均比那些m案件被删除。暗示:所有其他条件都相同(上述特殊情况并非如此)。
    随着更多的训练案例可用,人们还期望 LOO 的不稳定性(B&G 的 ω 方差分量)会更低。不幸的是,对于 LOO,这是无法衡量的。