具有稀疏预测变量的逻辑回归

机器算法验证 回归 物流 预测器
2022-03-19 14:17:36

我目前正在使用二元逻辑回归对一些数据进行建模。因变量有很多正例和负例 - 它并不稀疏。我还有一个大型训练集(> 100,000),我感兴趣的主效应数量约为 15,所以我不担心 p>n 问题。

我担心的是,我的许多预测变量,如果是连续的,大部分时间都是零,如果是名义上的,大部分时间都是空的。当这些稀疏预测变量的值 > 0(或不为空)时,由于熟悉数据,我知道它们在预测我的阳性病例时应该很重要。我一直在尝试寻找有关这些预测变量的稀疏性如何影响我的模型的信息。

特别是,如果有另一个预测变量不稀疏且相关但实际上在预测阳性病例方面做得不好,我不希望稀疏但重要变量的影响不包含在我的模型中.

举个例子,如果我试图模拟某人是否最终被某所特定的常春藤盟校录取,而我的三个预测指标是 SAT 分数、GPA 和“捐赠 > 100 万美元”作为二进制,我有理由相信“捐赠 > 100 万美元”,如果是真的,将非常预测接受 - 比高 GPA 或 SAT 更重要 - 但它也非常稀少。如果有的话,这将如何影响我的物流模型,我是否需要对此进行调整?另外,另一种模型(比如决策树、随机森林等)会更好地处理这个问题吗?

2个回答

1) L1 正则化可以解决数据的稀缺性。

2)您也可以尝试对数据进行子采样和过采样。(不要忘记根据之前使用的采样率校准结果)

3)您的模型还将考虑不同变量的重要性。

如果您的数据带有一些不确定性,您可以围绕稀疏预测变量创建置信水平。在您的示例中,一个分类变量,其中:

0 = 肯定没有捐赠 > 100 万美元

1 = 可能捐赠 > 100 万美元

2 = 肯定捐赠 > 100 万美元

这在过去对我来说效果很好