为数据的重复随机分区平均 LASSO 系数

机器算法验证 回归系数 套索 正则化
2022-03-28 02:00:58

从训练/测试集的重复改组中平均 LASSO 系数是否合理?

假设我将我的数据随机划分为测试集和训练集,然后在训练集中使用 10 倍交叉验证来选择最优λ,然后在完整的训练数据上重新拟合并记录模型系数。现在,假设我重复这个过程k次数。每次迭代都会选择稍微不同的系数。人们可能会考虑将这些平均起来。然而,每次迭代可能不会选择同一组非零系数,因此所有系数的平均值可能包含比任何单个解决方案更多的非零系数。

我在这里找到了类似的简短讨论,但我不想被多重插补的额外讨论混淆: Combining LASSO coefficients across imputed datasets 请注意,这个问题从未接受过任何答案。

1个回答

在 R 包“mht”(用于多假设检验)的“bolasso”函数中实现了与引导复制类似的事情,并在此处发布http://www.di.ens.fr/sierra/pdfs/icml_bolasso.pdf但他们从所有复制样本中获取具有非零系数的预测变量集的交集,然后仅使用这些变量拟合非正则化最小二乘估计量。

您指出了采用联合支持的问题,即您失去了降维的优势,并且您的 Lasso 估计仍然存在偏差。