对要建模的段施加类似的指标

数据挖掘 机器学习 分类 二进制
2022-03-05 21:18:58

我正在使用 AUC 作为分数在数据集中训练二元分类器。数据集有两个主要组(我们将它们称为好人口和坏人口)。该数据集的一个属性是在不良人群中目标 = 1 的比例更高。

出于这个原因,一个相对虚拟的分类器会给坏人群更高的分数,而给好人群更低的分数。事实上,分类器的 AUC 可能在全局范围内相当高,而且,当分别查看两个群体内部的 AUC 时,它们的 AUC 可能真的很低。

我想避免这种行为。事实上,我愿意在全球人群中牺牲一些 AUC,这样每组的 AUC 都不会很低。我的一个想法是使用两组 AUC 的调和平均值作为衡量标准,而不是一般的 AUC。但是,这可能无法以自然的方式真正帮助分类器。

是否有任何论文/技术/软件可以帮助我以更自然的方式解决这个问题?

1个回答

鉴于在您的数据中人口类型(好与坏)和目标之间存在相关性,您的模型可能会学习到两者之间的不良关联。因此,人口类型是一个混杂因素

一种自然的工具,可以处理带有因果推断的混杂因素。您可以在 Judea Pearl 的作品中找到因果推理的概述,无论是这篇文章还是他的书可以在Ferenc Huszár 的博客中找到对因果推理的简洁介绍,其中包括一个用于控制混杂因素的条目

有一些 python 包提供了因果推理功能,例如Microsoft 的 dowhyCausalinference