LASSO 回归将系数缩小到零,从而提供有效的模型选择。我相信在我的数据中,名义协变量和连续协变量之间存在有意义的相互作用。然而,真实模型的“主效应”不一定有意义(非零)。当然我不知道这一点,因为真正的模型是未知的。我的目标是找到真正的模型并尽可能准确地预测结果。
我了解到,经典的模型构建方法总是会在包含交互之前包含主效应。的交互作用,则不可能存在没有两个协变量和的主效应的模型。因此,函数会 仔细选择遵守此规则的模型项(例如,基于后向或前向 AIC)。step
R
LASSO 的工作方式似乎有所不同。由于所有参数都受到惩罚,因此毫无疑问可能会发生主效应缩小到零,而最佳(例如交叉验证)模型的交互作用是非零的。我在使用R
'sglmnet
包时特别发现了我的数据。
我收到了基于上面引用的第一条规则的批评,即我最终的交叉验证 Lasso 模型不包括一些非零交互的相应主效应项。然而,在这种情况下,这条规则似乎有些奇怪。归结为真实模型中的参数是否为零的问题。让我们假设它是但交互是非零的,那么 LASSO 可能会识别它,从而找到正确的模型。事实上,该模型的预测似乎会更精确,因为该模型不包含真正的零主效应,这实际上是一个噪声变量。
我可以基于这个理由驳斥批评,还是我应该以某种方式采取预防措施,即 LASSO 确实在交互项之前包含了主效应?