我正在使用 AUC 作为分数在数据集中训练二元分类器。数据集有两个主要组(我们将它们称为好人口和坏人口)。该数据集的一个属性是在不良人群中目标 = 1 的比例更高。
出于这个原因,一个相对虚拟的分类器会给坏人群更高的分数,而给好人群更低的分数。事实上,分类器的 AUC 可能在全局范围内相当高,而且,当分别查看两个群体内部的 AUC 时,它们的 AUC 可能真的很低。
我想避免这种行为。事实上,我愿意在全球人群中牺牲一些 AUC,这样每组的 AUC 都不会很低。我的一个想法是使用两组 AUC 的调和平均值作为衡量标准,而不是一般的 AUC。但是,这可能无法以自然的方式真正帮助分类器。
是否有任何论文/技术/软件可以帮助我以更自然的方式解决这个问题?