您希望 LARS 找到的模型与穷举搜索找到的模型在哪种情况下差异最大?

机器算法验证 回归 模型选择
2022-03-10 04:34:25

更多信息;假设

  1. 您事先知道要选择多少个变量,并且您在 LARS 过程中设置了复杂性惩罚,例如具有非 0 系数的变量,
  2. 计算成本不是问题(变量的总数很小,比如 50),
  3. 所有变量 (y,x) 都是连续的。

在什么设置下,LARS 模型(即那些在 LARS 拟合中具有非零系数的变量的 OLS 拟合)与具有相同数量的系数但通过穷举搜索(a la regsubsets())找到的模型最不同?

编辑:我使用 50 个变量和 250 个观察值,其中实际系数取自标准高斯分布,但其中 10 个变量的“真实”系数为 0(并且所有特征彼此之间密切相关)。这些设置显然不好,因为两组选定变量之间的差异很小。这实际上是一个关于应该模拟哪种类型的数据配置以获得最大差异的问题。

2个回答

相对于样本数量而言,您拥有的特征越多,与 LARS 相比,使用 exaustive 搜索方法获得的过度拟合就越多。LARS 中使用的惩罚项强加了越来越复杂的模型的嵌套结构,由单个正则化参数索引,因此使用 LARS 进行特征选择的“自由度”相当低。对于穷举搜索,每个特征实际上有一个(二元)自由度,这意味着由于数据的随机采样,穷举搜索能够更好地利用特征选择标准中的随机可变性。结果,由于“假设类别”更大,详尽搜索模型很可能严重适合特征选择标准。

这是 LARS 算法的描述:http ://www-stat.stanford.edu/~tibs/lasso/simple.html它有点忽略了回归量之间的相关性,所以我冒昧地猜测它可能会错过多重共线性情况下的拟合。