每个类别中具有多个值的类别特征的逻辑回归模型

数据挖掘 Python 特征选择 逻辑回归 分类数据
2022-02-21 20:03:17

我正在研究一个保险用例来构建逻辑回归分类器来预测保单是否会失效。该数据集具有超过 20 个策略的分类特征。每个分类特征本身可以有多个值,其中一次只有一个适用于策略。例如,可能有多种支付保费的方式(如每年、每半年、每季度或每月)。该政策将附加这些价值中的任何一个。作为特征缩减的一部分,我对我的目标特征使用卡方检验(如果政策失效与否)并删除了一些特征。在此之后,我为它们创建了虚拟变量(0 或 1),并尝试使用 pandas 中的 .corr() 函数找到相关性。该操作有助于识别一些与目标特征 e 高度相关的虚拟特征。产品类型、更新类型、业务来源的具体价值。使用这些虚拟特征变量,我训练了我的逻辑回归分类器,它给出了 94% 的准确率、81% 的精度、98% 的召回率和 0.98 的 AUC 值下的面积,我认为这是模型过度拟合的一个案例。

我相信,如果我在一个没有分类特征值的策略上使用这个模型,它会惨遭失败。

请指导我使用分类特征的单个值来训练模型是否正确?如果该值不存在/不适用于新数据,则模型将无法以高精度进行预测。请指导在这种情况下如何进行特征选择以及如何训练模型。如果可以提供类似实现的链接,将不胜感激。

1个回答

看起来这对 catboost 来说是个大问题。试试看

我相信,如果我在一个没有分类特征值的策略上使用这个模型,它会惨遭失败。 任何具有大协变量偏移的数据集都会惨遭失败。

注意阅读 catboost 的文档,其中有部分用于功能选择。