历史数据会不会导致目标泄露?

数据挖掘 机器学习 Python 预测建模 搅拌 数据泄露
2022-03-05 17:38:37

我正在建立一个员工流失模型。我有 2016 年至 2019 年的员工数据(留下/离开公司的人),我的目标是使用 2016 年至 2018 年的数据进行训练并预测 2019 年。

由于2016-2019年没有离开公司的人有很多重复的员工,所以我的训练集是:2018年没有离开公司的员工数据注入了2016/2017年离开公司的员工数据/ 2018 年,以便在训练数据集中只有一个人。

我的问题

  • 只有 2016/2017 年离开的人会导致目标泄漏吗?
  • 我没有使用时间假人,但我的模型是否可以过度拟合认为员工更有可能在 2016/2017 年离开公司,因为这是它更经常看到的情况?
  • 如果是这样,我该如何避免这个问题?

谢谢 :)!

1个回答

我会忽略你的问题。对我来说,听起来您有一个数据集,其中包含基本上员工的开始日期和“结束日期”,或者如果员工仍在为您工作,则没有结束日期。这听起来像是称为“生存回归”或生存分析的一类回归技术的标准案例。我建议你调查一下。

现在对于您的问题,我不太确定目标泄漏,因为我不太清楚如何,如果您的员工逐年发生结构性变化,那么肯定会有一些泄漏是的。