我正在研究一个回归模型,其中正在评估大量可能的解释变量,最后通过变量选择的套索方法选择了一小部分。这通过查看交叉验证预测性能来选择套索中的调整参数,这是非常标准的。
但是,当我获取所选变量的列表并仅对它们运行 OLS 时,许多结果在统计上并不显着。如果它们共同显着并且预测性能优于其他模型,那可能会很好(此外,当您已经在单独的步骤中筛选了变量时,会有一个问题是 t 检验意味着什么,但我我把它放在一边)。
我很好奇,在套索选择的模型中查看单个变量的统计显着性是否有意义,使用 CV 预测性能来选择调整参数。问题是 lasso 最终选择了各种虚拟变量,这些虚拟变量仅在一小部分人群中为真,而在 OLS 中微不足道,并且存在一个自然问题,即是否应该对模型进行判断性简化。