数据挖掘 - 评估不同子部分的模型性能 - 吾爱随笔录

我目前正在从事一个与信用风险相关的项目，在该项目中我为不平衡的数据集构建了一个二元逻辑回归模型。

根据规定，我必须证明该模型在不同的数据子集上表现良好（例如，年龄组 [18, 25] 与年龄组 [26, 40] 相比，抵押贷款与消费贷款相比，高/低收入） . 通常，子段将由二进制变量指示，但也可能有两个以上的段要比较。

我花了一整天的时间寻找可能的解决方案，但到目前为止，我还没有找到对这个挑战特别有用的东西。不幸的是，仅仅表明 AUC 在每个子段上没有显着下降是不够的。

你们中是否有任何人已经经历过这类问题？

非常感谢你！