我正在将 ML 模型(LGBM 二元分类器)应用于数据,现在想识别我的假阴性率低(假阳性不是这样的问题)和尽可能真实的数据部分 -底片。
背景
我正在分类的数据来自一个系统,其中包括许多复杂的规则,这些规则决定公司是否在某些情况下支付商誉/保修。在许多情况下,这个基于规则的系统已经完成了决定并启动了支付。但是,在某些情况下,此基于规则的系统无法最终确定决策,而是将案例与提议的决策一起转发到手动决策过程。似乎这种情况也经常发生,因为规则(高度可配置)不够清晰,或者因为价格依赖部分没有根据通货膨胀进行调整等。
现在在这种配置中,事实证明,手动决策过程通常只接受建议的决策。我正在训练一个 ML 模型(LGBM 分类器)来识别案例,在这些案例中,手动决策过程导致只接受提议的决策而不更改它。
动机
我只对确定可以接管规则系统提出的决策的情况感兴趣,因为我想减少必须手动检查的决策数量。我的模型目前的 MAE 约为 0.8。
我现在想找到一段数据,其中假阴性的比率(模型声明的决策,它们不需要改变,但实际上决策者改变了它们)最小(或低于某个阈值-->说0.02)。
问题
任何人都可以建议,我怎么能找到这样一个假阴性率低的区域(区域中的假阴性按区域中的样本数量)?我想过一个简单的决策树,但想知道是否有更好的选择。
例如,我怀疑,如果叶子包含高比例的 95% 1 类样本和 5% 0 类样本,并且某些条件允许将其分成 98% 1 类和 92% 1 类的两个区域,它不会执行该拆分,因为无论如何都将被归类为 1 类,还是我在这里错了?