我目前正在使用二元逻辑回归对一些数据进行建模。因变量有很多正例和负例 - 它并不稀疏。我还有一个大型训练集(> 100,000),我感兴趣的主效应数量约为 15,所以我不担心 p>n 问题。
我担心的是,我的许多预测变量,如果是连续的,大部分时间都是零,如果是名义上的,大部分时间都是空的。当这些稀疏预测变量的值 > 0(或不为空)时,由于熟悉数据,我知道它们在预测我的阳性病例时应该很重要。我一直在尝试寻找有关这些预测变量的稀疏性如何影响我的模型的信息。
特别是,如果有另一个预测变量不稀疏且相关但实际上在预测阳性病例方面做得不好,我不希望稀疏但重要变量的影响不包含在我的模型中.
举个例子,如果我试图模拟某人是否最终被某所特定的常春藤盟校录取,而我的三个预测指标是 SAT 分数、GPA 和“捐赠 > 100 万美元”作为二进制,我有理由相信“捐赠 > 100 万美元”,如果是真的,将非常预测接受 - 比高 GPA 或 SAT 更重要 - 但它也非常稀少。如果有的话,这将如何影响我的物流模型,我是否需要对此进行调整?另外,另一种模型(比如决策树、随机森林等)会更好地处理这个问题吗?