我目前正在从事一个与信用风险相关的项目,在该项目中我为不平衡的数据集构建了一个二元逻辑回归模型。
根据规定,我必须证明该模型在不同的数据子集上表现良好(例如,年龄组 [18, 25] 与年龄组 [26, 40] 相比,抵押贷款与消费贷款相比,高/低收入) . 通常,子段将由二进制变量指示,但也可能有两个以上的段要比较。
我花了一整天的时间寻找可能的解决方案,但到目前为止,我还没有找到对这个挑战特别有用的东西。不幸的是,仅仅表明 AUC 在每个子段上没有显着下降是不够的。
你们中是否有任何人已经经历过这类问题?
非常感谢你!