大海捞针正则化回归

机器算法验证 回归 预言 残差 正则化
2022-04-19 17:14:11

我在一个设置中,我试图在给定 ~100 个变量和 ~100k 数据点的情况下对连续输出变量进行建模。信噪比极低,共线性度很高。在这些变量中有许多“大海捞针”二进制值特征。“大海捞针”二进制值特征很小(~0.01)的特征,但是当时我们的模型无偏很重要.fPr[f==1]f==1

当我使用 OLS 时,结果模型在时正确无偏。然而,该模型具有源于噪声和共线性的不良特征。f==1

当我尝试弹性网络正则化时,噪声/共线性问题就消失了。然而,正则化的行为似乎导致模型忽略了大海捞针特征的偏差。即使时,模型也会产生不可接受的大残差ff==1

我想知道如何才能两全其美。我目前正在首先训练一个弹性网络正则化模型,然后训练第二个 OLS 模型来预测大海捞针特征的残差。这似乎工作得很好,但我想知道是否有更标准的方法。

1个回答

最终,我最终放弃了正则化方法,因为它们对不平衡的分类/二元特征过于偏向。总的来说,我实际上对正则化持怀疑态度,至少在我的问题领域是这样。

相反,我使用带有 k 折交叉验证的逐步特征选择的 OLS。我不得不实现一些重要的机制来大规模地进行这项工作,因为完整的矩阵不适合内存。n×k