假设我正在构建一个用于向消费者提供贷款的二元分类器。但除了我可以使用的标准准确性指标之外,我还有一个业务要求,它希望能够“自动批准”80% 的贷款。
我的直觉是这应该是1 - False Positive Rate,但我不太确定。
有任何想法吗?
假设我正在构建一个用于向消费者提供贷款的二元分类器。但除了我可以使用的标准准确性指标之外,我还有一个业务要求,它希望能够“自动批准”80% 的贷款。
我的直觉是这应该是1 - False Positive Rate,但我不太确定。
有任何想法吗?
该算法的目的似乎是降低成本。因此,包含与违约相关的财务风险的指标应优于仅衡量违约数量的指标。
加权false_positive * loss_on_default指标似乎是理想的,您可以在其中设置正类(自动批准)的概率截止值,这样无论预测的绝对概率如何,80% 的贷款都会获得批准。从概念上讲,这类似于在 ROC 曲线上选择一个点并在该点评估算法。
该指标不能直接用作目标函数,您可能会使用 loss_on_default 对每个样本加权的 logloss 之类的东西来训练模型。
我快速搜索了类似的指标,但找不到任何东西(这也不是我以前做过的事情,所以请仔细测试这个想法,这主要是我的猜测)。在例如 SciKit 学习中有很多指标,但是它们采用一个sample_weight执行类似操作的数组 - 例如,Sklearn 的零一损失非常接近,除了它也会包含假阴性。