看起来这篇文章接受的答案背后的理由是不正确的。
在留一交叉验证(LOOCV)下,其 MSE 估计量的方差为
我同意 LOOCV 具有更高的枚举数(协方差项的 b/c),但分母也更大,因为基本上有 n 个估计值(在 k 倍情况下大于 k 个估计值)。
鉴于此,为什么 LOOCV 在估计 MSE 时仍然有更高的方差,为什么它的偏差更低?
(这违反直觉 b/c 增加样本应该减少方差并保持偏差不变和)
看起来这篇文章接受的答案背后的理由是不正确的。
在留一交叉验证(LOOCV)下,其 MSE 估计量的方差为
我同意 LOOCV 具有更高的枚举数(协方差项的 b/c),但分母也更大,因为基本上有 n 个估计值(在 k 倍情况下大于 k 个估计值)。
鉴于此,为什么 LOOCV 在估计 MSE 时仍然有更高的方差,为什么它的偏差更低?
(这违反直觉 b/c 增加样本应该减少方差并保持偏差不变和)
在 stats.stackexchange 和科学文献中,关于这个话题有很多争论、困惑和矛盾。
Bengio & Grandvalet在 2004 年的研究中发表了一篇有用的论文,该论文认为交叉验证估计量的方差是三个矩的线性组合:
其中每个术语是协方差矩阵交叉验证错误
正如@Amoeba 在上面的评论中指出的那样,这种差异并不是一个简单的函数. 每个数据点导致错误项将其汇总到 MSE 中。变化对 CV 估计量的方差没有直接的、代数上直接的影响。
-fold CV 任意值为为每一个产生一个错误观察。所以MSE估计总是有分母. 这个分母在 LOOCV 和例如 10 倍 CV 之间没有变化。这是您在这里的主要困惑。
现在,这个方差方程比看起来要微妙得多。特别是条款和受数据集、训练集、测试集等之间的相关性和模型不稳定性的影响。这两个效果受值的影响这解释了为什么不同的数据集和模型会导致不同的行为,
您需要通读大量(和技术)文献才能真正掌握其中的微妙之处和特殊情况。
除了泽维尔的回答:
为什么 LOOCV 在估计 MSE 时仍然有更高的方差,为什么它的偏差更低
我们是否知道观察到 LOO 的高方差的情况是否与它也具有低偏差的情况相同?
我知道一种特殊情况(LOO、小样本量、考虑到训练中类的相对频率的分类器)会导致高度悲观偏差。现在对于某些高度使用的品质因数,例如错误分类百分比或准确性或测试用例的类似比例,大的悲观偏差通常会导致更大的方差,因为对于这些品质因数,方差在数学上与它们的大小相关(对于50%)。
“LOO 的低 [悲观] 偏差”通常是从学习曲线中争论出来的:如果,而不是带走训练用例,只留下 1 个训练用例,代理模型平均比那些案件被删除。暗示:所有其他条件都相同(上述特殊情况并非如此)。
随着更多的训练案例可用,人们还期望 LOO 的不稳定性(B&G 的 ω 方差分量)会更低。不幸的是,对于 LOO,这是无法衡量的。