我经常听到讨论数据的上采样或下采样作为处理不平衡数据分类的一种方式。
我知道如果您使用二进制(而不是基于概率或基于分数的)分类器并将其视为黑盒,这可能很有用,因此采样方案是您调整其在“ROC 曲线”上的位置的唯一方法"(加引号是因为如果你的分类器本质上是二元的,我猜它没有真正的 ROC 曲线,但权衡误报和误报的相同概念仍然适用)。
但是,如果您实际上可以访问某种分数,而您稍后会对其进行阈值化以做出决定,那么似乎同样的理由并不成立。在这种情况下,当您拥有更好的工具(例如实际的 ROC 分析)时,上采样不只是一种临时的方式来表达您希望在误报和误报之间进行权衡的方式吗?在这种情况下,除了改变分类器在每个类上的“先验”(即成为该类的无条件概率,基线预测)之外,期望上采样或下采样做任何事情似乎很奇怪——我不会不要期望它改变分类器的“优势比”(分类器根据协变量调整其基线预测的程度)。
所以我的问题是:如果您有一个不是二进制黑盒的分类器,是否有任何理由期望上采样或下采样比根据您的喜好调整阈值具有更好的效果?如果做不到这一点,是否有任何实证研究表明上采样或下采样对合理的性能指标(例如,不准确)有相当大的影响?