AUC 会随着其他变量而降低吗?

机器算法验证 回归 物流 奥克
2022-03-22 18:40:56

我正在拟合逻辑回归模型来预测一组变量的概率。我正在比较两个这样的模型,比如M1M2唯一的区别是它M2包括了所有的变量M1加上几个变量。这个想法是看看哪些变量对预测我的因变量有用。

我预计随着新变量的添加,AUC 应该不会减少。如果新变量具有预测能力,它们应该增加 AUC,如果没有,那么 AUC 应该不受影响。但我发现当我添加一组特定的新变量时,AUC 实际上会降低。这里可能是什么问题?

predict()用来获得预测的概率。在计算预测值时,它会自动丢弃所有统计上不显着的变量吗?这可能是AUC下降的原因吗?

3个回答

无信息特征的影响很大程度上取决于您的建模策略。对于某些方法,它们是无关紧要的,而对于其他方法,它们会显着降低整体性能。

您认为使用更多功能必然会产生更好的模型的直觉是错误的。

检查新变量中是否没有缺失值。逻辑回归拒绝数据缺失的案例,仅针对完整案例调整模型。您必须确保您正在比较相同群组中的歧视。

晚了4年,但我现在也有同样的经历。

对于逻辑回归,模型应该足够聪明,可以忽略无用的变量。没有约束阻止这些变量的系数为 0。

记住逻辑回归的工作原理很重要。我相信该模型直接优化平方误差而不是 AUC。您可能想检查当您的 AUC 恶化时您的 MSE 是否有所改善。就我而言,尽管我的 AUC 越来越差,但我的 MSE 确实有所改善。

我确实注意到,有时我的 MSE 会略有增加,但功能更多。我认为它可能是模型默认参数之一,可能是最大迭代次数或收敛的容差标准。顺便说一句,我正在使用 sklearn 的逻辑回归。