数据挖掘 - 分类问题：自定义最小化度量 - 吾爱随笔录

假设一个二元分类问题，有 $1$ 表示为“坏”结果，并且 $0$ 作为一个“好”的结果。如果它是相关的，那么样本中的坏品比商品多得多。

我正在尝试开发一个分类模型，其中期望的结果是概率，而不仅仅是输出类。

但是，无论我尝试什么变量/模型组合，模型都能够很好地区分坏情况，但不能很好地区分好情况。换句话说，（平滑的）经验结果与模型估计概率的分布函数不是单调的，大致具有倾斜抛物线的形状（如字母 $J$ ）。

我的问题：为了重塑任何模型以将估计集中在好的案例上，有哪些常用策略？如果有可能吗？

直观地说，似乎一种可能的策略是为最小化器定义一个自定义指标，该指标对于好与坏的情况具有不对称的权重。即，在惩罚线性回归的情况下，变量选择可能会偏向于区分商品，而不是最大化总 AUC。但到目前为止，我无法找到任何实现的类似解决方案。我想，实现这样的事情并不是一件容易的事..

或者，是否可以通过以某种方式转换输入变量来实现这一点？