数据挖掘 - 将业务指标转换为 ML 准确性指标 - 吾爱随笔录

数据挖掘分类准确性

2022-02-25 15:05:00

假设我正在构建一个用于向消费者提供贷款的二元分类器。但除了我可以使用的标准准确性指标之外，我还有一个业务要求，它希望能够“自动批准”80% 的贷款。

我的直觉是这应该是1 - False Positive Rate，但我不太确定。

有任何想法吗？

1个回答

该算法的目的似乎是降低成本。因此，包含与违约相关的财务风险的指标应优于仅衡量违约数量的指标。

加权false_positive * loss_on_default指标似乎是理想的，您可以在其中设置正类（自动批准）的概率截止值，这样无论预测的绝对概率如何，80% 的贷款都会获得批准。从概念上讲，这类似于在 ROC 曲线上选择一个点并在该点评估算法。

该指标不能直接用作目标函数，您可能会使用 loss_on_default 对每个样本加权的 logloss 之类的东西来训练模型。

我快速搜索了类似的指标，但找不到任何东西（这也不是我以前做过的事情，所以请仔细测试这个想法，这主要是我的猜测）。在例如 SciKit 学习中有很多指标，但是它们采用一个sample_weight执行类似操作的数组 - 例如，Sklearn 的零一损失非常接近，除了它也会包含假阴性。

其它你可能感兴趣的问题