类不平衡 - 应用 SMOTE - 下一步

数据挖掘 r 阶级失衡 打击
2022-03-10 10:43:38

我是 ML 新手,从您的宝贵帖子中学到了很多。我需要您就以下情况提供建议,并就这些步骤是否有意义提供指导。我有一个二元分类问题,我的数据集严重不平衡,总共 200,000 个案例中大约 2% 的阳性案例(4,000 个案例)。我将我的数据集分成一个火车和一个测试(80/20 分层拆分)。我的火车现在总共有 160,000 个病例(3,200 个阳性病例),测试总共有 40,000 个(800 个阳性病例)。

接下来,从 Train I 创建了一个 (50-50) SMOTE 样本,其中有约 9,000 个阳性案例(原始 3,200 和 SMOTE 创建了约 5,800 个阳性的合成样本)和约 9,000 个阴性案例(因此“新火车”中总共有 18,000 个案例”)。

接下来,我在 R 插入符号中使用 ROC 训练标准在“新火车”上开发了基于袋装/增强树的分类器(我得到了大约 0.9 的高 ROC,这很常见)。然后我将模型应用于具有原始类不平衡的测试集并获得预测概率(AUC 现在为 0.65)。我根据 pROC 包确定了分类的最佳阈值,用于在测试数据集上创建最终类预测。

如果我要正确地从具有 50/50 不平衡的经过训练的 SMOTE 模型过渡到具有 50/1 原始不平衡的测试模型,我需要您的建议。我正在做的事情有什么根本性的错误吗?关于如何改进这个过程的任何建议都会非常有帮助。是否需要对基于 SMOTE 的测试概率进行任何更正,或者是我能做的最好的阈值化?

0个回答
没有发现任何回复~