假设一个二元分类问题,有表示为“坏”结果,并且作为一个“好”的结果。如果它是相关的,那么样本中的坏品比商品多得多。
我正在尝试开发一个分类模型,其中期望的结果是概率,而不仅仅是输出类。
但是,无论我尝试什么变量/模型组合,模型都能够很好地区分坏情况,但不能很好地区分好情况。换句话说,(平滑的)经验结果与模型估计概率的分布函数不是单调的,大致具有倾斜抛物线的形状(如字母)。
我的问题:为了重塑任何模型以将估计集中在好的案例上,有哪些常用策略?如果有可能吗?
直观地说,似乎一种可能的策略是为最小化器定义一个自定义指标,该指标对于好与坏的情况具有不对称的权重。即,在惩罚线性回归的情况下,变量选择可能会偏向于区分商品,而不是最大化总 AUC。但到目前为止,我无法找到任何实现的类似解决方案。我想,实现这样的事情并不是一件容易的事..
或者,是否可以通过以某种方式转换输入变量来实现这一点?