数据挖掘 - 对要建模的段施加类似的指标 - 吾爱随笔录

我正在使用 AUC 作为分数在数据集中训练二元分类器。数据集有两个主要组（我们将它们称为好人口和坏人口）。该数据集的一个属性是在不良人群中目标 = 1 的比例更高。

出于这个原因，一个相对虚拟的分类器会给坏人群更高的分数，而给好人群更低的分数。事实上，分类器的 AUC 可能在全局范围内相当高，而且，当分别查看两个群体内部的 AUC 时，它们的 AUC 可能真的很低。

我想避免这种行为。事实上，我愿意在全球人群中牺牲一些 AUC，这样每组的 AUC 都不会很低。我的一个想法是使用两组 AUC 的调和平均值作为衡量标准，而不是一般的 AUC。但是，这可能无法以自然的方式真正帮助分类器。

是否有任何论文/技术/软件可以帮助我以更自然的方式解决这个问题？