我在一个设置中,我试图在给定 ~100 个变量和 ~100k 数据点的情况下对连续输出变量进行建模。信噪比极低,共线性度很高。在这些变量中有许多“大海捞针”二进制值特征。“大海捞针”二进制值特征是很小(~0.01)的特征,但是当时我们的模型无偏很重要.
当我使用 OLS 时,结果模型在时正确无偏。然而,该模型具有源于噪声和共线性的不良特征。
当我尝试弹性网络正则化时,噪声/共线性问题就消失了。然而,正则化的行为似乎导致模型忽略了大海捞针特征的偏差。即使时,模型也会产生不可接受的大残差。
我想知道如何才能两全其美。我目前正在首先训练一个弹性网络正则化模型,然后训练第二个 OLS 模型来预测大海捞针特征的残差。这似乎工作得很好,但我想知道是否有更标准的方法。