您应该始终在逻辑回归中使用抽样方法。当面对一个不平衡的数据集时,这意味着事件(响应,肯定......)与非事件(无响应,否定......)数据之间存在巨大的大小差异。当目标事件很少时,一个有代表性的样本不太可能有足够的目标事件来构建一个好的预测模型。幸运的是,具有分类结果(例如对营销活动的响应)的数据集中的信息量不是由数据集中的案例总数决定,而是由最罕见结果类别中的案例数量决定。
- 过采样
一种方法是oversampling. 虽然过采样减少了分析时间,但它也引入了一些偏差。您需要纠正这些偏差,以便结果适用于总体。
例如,您可以选择包含所有事件且仅包含非事件子集的数据样本,这将使事件和非事件数据大小相似。同样,这种分析引入了您需要纠正的偏差,以便结果适用于总体。
- 拆分数据以进行训练、验证和测试。(你可能知道这一点。)
- 偏差校正。过采样的效果是响应(logit(p^)) 逻辑回归模型的表面是线性移动的,过采样不会影响斜率,但会导致截距过高或过低。
要纠正偏差或偏移,请遵循以下等式
Offset=ln(π0ρ1)(π1ρ0)
π0=人口中非事件的比例;
π1=人口中事件的比例。
ρ0=样本中非事件的比例;
ρ1=样本中事件的比例。
输出结果应该是(logit(p^)−抵消)