我发现交叉验证 (CV) 统计量和与线性模型相关的广义交叉验证 (GCV) 统计量的定义可能存在冲突(具有正常的同方差误差向量)。
一方面,Golub、Heath 和 Wahba 将 GCV 估计值定义为 (p. 216)
的最小值由 其中A\left(\lambda\right) = X\left(X^TX + n\lambda I\right)^{-1} X^T
另一方面,Efron 定义了与 (p. 24) 相同的概念,但他将此概念的引入归因于 Craven & Wahba,其定义 (p. 377) 基本相同正如 Golub, Heath & Wahba 的上述定义。
这是否意味着最小化?
类似地,Golub、Heath 和 Wahba 将的 CV 估计值(第 217 页)定义为
其中是估计值
β的第个数据点被省略。
作者将 CV 估计(也称为 PRESS 估计)的引入归因于 Allen(“Allen's PRESS”,同上)。然而在 Allen 的论文中,PRESS 估计被定义为(第 126 页)为(在 Efron 的文章中,它被定义为 (p. 24))。
同样,这是否意味着最小化?
Allen, David M. 变量选择与数据分析之间的关系以及一种预测方法。技术计量学,卷。16,第 1 期(1974 年 2 月),第 125-127 页
克雷文,彼得和瓦巴,格蕾丝。使用样条函数平滑噪声数据。Numerische Mathematik 31, (1979), pp. 377-403
埃夫隆,布拉德利。Logistic 回归的表观错误率有多大偏差?技术报告编号 232.斯坦福大学统计系(1985年4月)
Golub、Gene H.、Heath 和 Grace Wahba。广义交叉验证作为选择良好岭参数的方法。技术计量学,卷。21,第 2 期(1979 年 5 月),第 215-223 页