我有一个大数据集(28354359 行),其中包含一些血液值作为特征(11 个特征)和标签或结果变量,用于告知患者是否患有由肿瘤引起的病毒。
我的数据集的问题是,我的数据集中 2% 的患者感染了病毒,而 98% 的患者没有感染病毒。
我必须使用随机森林算法。虽然我的随机森林模型的准确度得分高达 92%,但问题是,超过 90% 的感染病毒的患者被预测为没有病毒。
我想要相反的效果,我希望我的随机森林可能更频繁地预测患者感染病毒(即使患者没有病毒(理想情况下我不想要这种副作用,而是这个而不是对面的))。
这背后的想法是,执行额外的测试(通过回声)不会伤害没有病毒的患者,但不对患者进行测试会给患者带来可怕的结果。
有人建议我如何为这项任务调整我的随机森林模型吗?
我自己尝试了 SMOTE 转换和其他采样技术,但也许你们有其他建议。
我也尝试过应用截止功能。