我对随机森林模型(以及一般的数据科学)相当陌生,并且想知道我是否正在正确操作我创建的模型。
背景:我正在创建一个随机森林模型来预测员工自愿离职。
问题:测试集的准确度为 97%(AUC .992[这似乎太高了],精确度:88%,召回率:99%)vs 训练集的准确度为 96%,但随着我们不断收到新的自愿终止,他们的基于模型的概率往往小于 0.1。IE,表示他们不会离开。
我想这是有道理的,因为在创建模型时,这些员工仍在组织内,因此模型准确地将他们归类为公司,但准确分类员工是否仍在组织中是没有帮助,我需要能够识别出那些离职概率较高的员工,这就是我对 RF 模型的理解(我之前使用逻辑回归模型做过)。
我能想到的可能解释:
1) 数据集似乎不太不平衡:8054 个非术语与 2158 个术语
2)过拟合?但是测试集的准确性并没有大幅下降
3)高相关预测变量?
附代码。
