我正在建立一个员工流失模型。我有 2016 年至 2019 年的员工数据(留下/离开公司的人),我的目标是使用 2016 年至 2018 年的数据进行训练并预测 2019 年。
由于2016-2019年没有离开公司的人有很多重复的员工,所以我的训练集是:2018年没有离开公司的员工数据注入了2016/2017年离开公司的员工数据/ 2018 年,以便在训练数据集中只有一个人。
我的问题
- 只有 2016/2017 年离开的人会导致目标泄漏吗?
- 我没有使用时间假人,但我的模型是否可以过度拟合认为员工更有可能在 2016/2017 年离开公司,因为这是它更经常看到的情况?
- 如果是这样,我该如何避免这个问题?
谢谢 :)!