使用交叉验证时单一标准错误规则的经验证明

机器算法验证 交叉验证 模型选择 正则化
2022-02-08 09:39:15

是否有任何实证研究证明使用单一标准错误规则来支持简约?显然,这取决于数据的数据生成过程,但是任何分析大量数据集的内容都是非常有趣的阅读。


当通过交叉验证(或更一般地通过任何基于随机化的程序)选择模型时,应用“一个标准错误规则”。

假设我们考虑模型Mτ由复杂度参数索引τR, 这样Mτ比“更复杂”Mτ究竟是什么时候τ>τ. 进一步假设我们评估模型的质量M通过一些随机化过程,例如交叉验证。q(M)表示“平均”质量M,例如,在许多交叉验证运行中的平均袋外预测误差。我们希望尽量减少这个数量。

然而,由于我们的质量测量来自一些随机化程序,它带有可变性。s(M)表示质量的标准误M在随机化运行中,例如,袋外预测误差的标准差M交叉验证运行。

然后我们选择模型Mτ, 在哪里τ是最小的τ这样

q(Mτ)q(Mτ)+s(Mτ),

在哪里τ索引(平均)最佳模型,q(Mτ)=minτq(Mτ).

也就是说,我们选择最简单的模型(最小 ),它比随机化过程中差不超过一个标准误差。τMτ

我在以下地方发现了这个“一个标准错误规则”,但从未有任何明确的理由:

3个回答

对于经验证明,请查看这些 Tibshirani 数据挖掘课程笔记的第 12 页,其中显示了 CV 误差作为特定建模问题的 lambda 函数。建议似乎是,低于某个值,所有 lambdas 都会给出大约相同的 CV 错误。这是有道理的,因为与岭回归不同,LASSO 通常不仅仅用于,甚至主要用于提高预测准确性。它的主要卖点是通过消除最不相关/最有价值的预测变量,使模型更简单、更易于解释。

现在,为了理解一个标准错误规则,让我们考虑一下我们从不同的中得到的模型族。Tibshirani 的图告诉我们,我们有一堆中高复杂度的模型,预测准确度差不多,还有一堆低复杂度的模型不擅长预测。我们应该选择什么?好吧,如果我们使用,我们可能对简约模型感兴趣,所以我们可能更喜欢能够很好地解释我们的数据的最简单模型(正如爱因斯坦所说,“尽可能简单但不简单”) . 那么,与所有那些高复杂度模型“差不多”的最低复杂度模型怎么样?什么是衡量“差不多好”的好方法?一标准误。λL1

以下不是实证研究,这就是为什么我最初想将其发布为评论,而不是答案 - 但事实证明评论太长了。

Cawley & Talbot ( J of Machine Learning Research , 2010)提请注意模型选择阶段过拟合和模型拟合阶段过拟合之间的区别。

第二种过度拟合是大多数人所熟悉的:给定一个特定的模型,我们不想过度拟合它,即过于接近我们通常拥有的单个数据集的特定特性。这就是收缩/正则化可以提供帮助的地方,通过将偏差的小幅增加与方差的大幅减少进行交易。

然而,Cawley 和 Talbot 认为我们也可以在模型选择阶段过拟合。毕竟,我们通常仍然只有一个数据集,并且我们正在不同复杂度的不同模型之间做出决定。评估每个候选模型以选择一个通常涉及拟合该模型,这可以使用或不使用正则化来完成。但是这个评估本身又是一个随机变量,因为它取决于我们拥有的具体数据集。因此,我们对“最佳”模型的选择本身可能会表现出偏差,并且表现出方差,这取决于我们可以从总体中提取的所有数据集中的特定数据集。

因此,Cawley 和 Talbot 认为,简单地选择在此评估中表现最佳的模型很可能是一个偏差较小的选择规则——但它可能表现出很大的方差。也就是说,给定来自同一数据生成过程 (DGP) 的不同训练数据集,此规则可能会选择非常不同的模型,然后将其拟合并用于在再次遵循相同 DGP 的新数据集中进行预测。有鉴于此,限制模型选择过程的方差但对更简单的模型产生较小的偏差可能会产生较小的样本外误差。

Cawley 和 Talbot 没有明确地将其与一个标准错误规则联系起来,他们关于“规范化模型选择”的部分非常简短。然而,一个标准误差规则将完全执行这种正则化,并考虑模型选择中的方差与袋外交叉验证误差的方差之间的关系。

例如,下面是Hastie、Tibshirani 和 Wainwright (2015)的稀疏统计学习的图 2.3 。模型选择方差由黑线在其最小值处的凸度给出。在这里,最小值不是很明显,并且线的凸度相当弱,因此模型选择可能相当不确定,方差很大。OOB CV 误差估计的方差当然由表示标准误差的多条浅蓝色线给出。

一个标准错误规则

Lasso 估计器选择的变量数量由惩罚值决定λ. 较大的是λ,选择的变量集越小。S^(λ)是使用作为惩罚的选定变量的集合λ.

λ是使用交叉验证函数的最小值选择的惩罚。可以证明P(S0S^(λ))1. 在哪里S0是真正非 0 的变量的集合。(真正的变量集合严格包含在使用交叉验证的最小值作为惩罚估计的集合中。)

这应该在Bühlmann 和 van de Geer的高维数据统计中报告。

惩罚值λ通常是通过交叉验证选择的;这意味着很有可能选择了太多的变量。为了减少所选变量的数量,使用一个标准错误规则稍微增加了惩罚。