逻辑回归:高度敏感的模型

数据挖掘 机器学习 逻辑回归
2022-02-21 22:20:42

我是数据科学和机器学习的新手。我正在研究一个分类问题,其任务是预测贷款状态(授予/未授予)。

我正在对数据运行逻辑回归模型。我的模型的准确率为 82%。但是,我的模型更敏感(敏感度 = 97%)且特异性较低(特异性 = 53%)。

我想增加模型的特异性。在这个阶段,在参考了一堆互联网资源后,我对如何进行感到困惑。

以下是我的观察:在测试数据中,

类标签中 1 的百分比是 73.17073170731707。

测试数据在类标签中的 1 多于 0。这是模型高度敏感的原因吗?

我附上了我的数据文件和代码文件。请看一下。

数据样本:

数据样本

流程:数据-->缺失值插补-->分布分析-->对数变换为正态分布-->一次热编码-->特征选择-->拆分数据-->模型选择与评估

代码片段:

特征选择

在这里,我选择了“3 个最佳功能”:信用记录、物业区域

模型评估

我应该如何进行?任何帮助(即使它只是朝着正确的方向踢球)将不胜感激。

2个回答

实际上,发生的事情是自然的。敏感性和特异性之间存在权衡。如果你想提高特异性,你应该提高你的决策函数的阈值,但要注意它是有代价的,而且代价是降低了敏感性。

只是一个想法。你试过用C“玩”吗?

C 是正则化强度的倒数。较大的 C 值赋予模型更大的自由度。默认 C 为 1。

像 1000 这样的高 C 可以(并非总是)为您提供更高的方差和更低的偏差,但您可能会过度拟合。祝你好运! 逻辑回归