从训练/测试集的重复改组中平均 LASSO 系数是否合理?
假设我将我的数据随机划分为测试集和训练集,然后在训练集中使用 10 倍交叉验证来选择最优,然后在完整的训练数据上重新拟合并记录模型系数。现在,假设我重复这个过程次数。每次迭代都会选择稍微不同的系数。人们可能会考虑将这些平均起来。然而,每次迭代可能不会选择同一组非零系数,因此所有系数的平均值可能包含比任何单个解决方案更多的非零系数。
我在这里找到了类似的简短讨论,但我不想被多重插补的额外讨论混淆: Combining LASSO coefficients across imputed datasets 请注意,这个问题从未接受过任何答案。