机器算法验证 - 大海捞针正则化回归 - 吾爱随笔录

我在一个设置中，我试图在给定 ~100 个变量和 ~100k 数据点的情况下对连续输出变量进行建模。信噪比极低，共线性度很高。在这些变量中有许多“大海捞针”二进制值特征。“大海捞针”二进制值特征是很小（~0.01）的特征，但是当时我们的模型无偏很重要. $f$ $Pr[f==1]$ $f==1$

当我使用 OLS 时，结果模型在时正确无偏。然而，该模型具有源于噪声和共线性的不良特征。 $f==1$

当我尝试弹性网络正则化时，噪声/共线性问题就消失了。然而，正则化的行为似乎导致模型忽略了大海捞针特征的偏差。即使时，模型也会产生不可接受的大残差。 $f$ $f==1$

我想知道如何才能两全其美。我目前正在首先训练一个弹性网络正则化模型，然后训练第二个 OLS 模型来预测大海捞针特征的残差。这似乎工作得很好，但我想知道是否有更标准的方法。