将业务指标转换为 ML 准确性指标

数据挖掘 分类 准确性
2022-02-25 15:05:00

假设我正在构建一个用于向消费者提供贷款的二元分类器。但除了我可以使用的标准准确性指标之外,我还有一个业务要求,它希望能够“自动批准”80% 的贷款。

我的直觉是这应该是1 - False Positive Rate,但我不太确定。

有任何想法吗?

1个回答

该算法的目的似乎是降低成本。因此,包含与违约相关的财务风险的指标应优于仅衡量违约数量的指标。

加权false_positive * loss_on_default指标似乎是理想的,您可以在其中设置正类(自动批准)的概率截止值,这样无论预测的绝对概率如何,80% 的贷款都会获得批准。从概念上讲,这类似于在 ROC 曲线上选择一个点并在该点评估算法。

该指标不能直接用作目标函数,您可能会使用 loss_on_default 对每个样本加权的 logloss 之类的东西来训练模型。

我快速搜索了类似的指标,但找不到任何东西(这也不是我以前做过的事情,所以请仔细测试这个想法,这主要是我的猜测)。在例如 SciKit 学习中有很多指标,但是它们采用一个sample_weight执行类似操作的数组 - 例如,Sklearn 的零一损失非常接近,除了它也会包含假阴性。