分类问题:自定义最小化度量

数据挖掘 分类 r 公制
2022-01-25 23:16:21

假设一个二元分类问题,有1表示为“坏”结果,并且0作为一个“好”的结果。如果它是相关的,那么样本中的坏品比商品多得多。

我正在尝试开发一个分类模型,其中期望的结果是概率,而不仅仅是输出类。

但是,无论我尝试什么变量/模型组合,模型都能够很好地区分坏情况,但不能很好地区分好情况。换句话说,(平滑的)经验结果与模型估计概率的分布函数不是单调的,大致具有倾斜抛物线的形状(如字母J)。

我的问题:为了重塑任何模型以将估计集中在好的案例上,有哪些常用策略?如果有可能吗?

直观地说,似乎一种可能的策略是为最小化器定义一个自定义指标,该指标对于好与坏的情况具有不对称的权重。即,在惩罚线性回归的情况下,变量选择可能会偏向于区分商品,而不是最大化总 AUC。但到目前为止,我无法找到任何实现的类似解决方案。我想,实现这样的事情并不是一件容易的事..

或者,是否可以通过以某种方式转换输入变量来实现这一点?

1个回答

我认为您正在处理的是 I 型与 II 型错误讨论。看来您想避免 II 型错误。

一种方法是考虑Fβ为您的绩效指标。它是修改版F1. 如此处所示:https ://en.wikipedia.org/wiki/F1_score ,Fβ可以用 I 型/II 型错误来表述。然后你需要选择一个β基于避免第二类错误对您的重要性。这可以通过将 II 类错误的成本与 I 类错误的成本进行比较来完成。