我目前正在研究欺诈检测数据集。我正在使用 10-skfold roc auc 和默认参数 LightGBM 的估计器来评估我的训练数据。但是,问题是每次我尝试通过计算 2 列的比率来创建新列时,我的 CV 总是下降,即使理论上新列会突出欺诈与否之间的差异。
另一个问题是,当我在独立评估它们时通过特征工程发现 2 个好的(增加 CV)分离的新特征时,当我在同一评估中结合这两个特征时,我的 CV 实际上会降低。
我的特征工程方式有什么问题吗?现在我的步骤是: 1. 基于其他列创建一个新列 2. 使用 10-skfold 默认参数评估 CV 3. 如果 CV 增加(相对于原始数据),那么这是一个很好的功能,否则没有。
任何帮助表示赞赏。