警告:我知道不平衡的数据问题是一匹死马,但我还没有直接找到这种味道的答案。
在处理高度不平衡的数据(例如二元类案例)时,普遍的看法是尝试对少数类的上采样、多数类的下采样、两者的某种组合或类似 SMOTE 的方法进行训练。如果接受默认模型阈值并针对基于矩阵的指标(如准确率或 f1)进行调整,这样做的潜在收益是显而易见的。然而...
根据我的经验,如果一个人首先针对阈值不变的指标(如 ROC AUC 或 PR AUC 或类似的)进行优化,然后调整阈值以满足特定的业务需求,那么重新采样会迅速失去其好处,而且往往弊大于利。
考虑到上述策略,平衡类数据(或其各种风格)的普遍智慧是民俗吗?如果没有,在什么情况下人们通常应该期望它有帮助,在什么情况下会伤害?