独特数据或渐进数据的预测方法

数据挖掘 预测建模 回归 预言
2022-02-15 18:45:54

在员工流失分析中,表中的行数据为(员工,如 ID、姓名、Date_Join Date_Reliving Dept Role 等)

eID eName    Joining Releiving Dept Married Experience  
123 John Doe 10Oct15 12Oct16   HR   No      12  
234 Jen Doee 01jan16 -NA-      HR   No      11         (ie she is available)  

我可以对这些数据进行回归以找到 beta 系数

eID eName    Joining Releiving Dept Married Experience  
123 John Doe 10Oct15 12Oct16   HR   No      12  
234 Jen Doee 01jan16 -NA-      HR   No      11  

但我也看到了其他方法.. 根据加入日期和当前月份或释放月份之间的差异,员工有多个条目(比如员工 A 于 1 月加入,12 月离开,因此他将有 12 个条目更新相应的列,例如经历和婚姻等)

eID eName    Dept Married Experience  
123 John Doe HR   No      0  
123 John Doe HR   No      1  
123 John Doe HR   Yes     2  
123 John Doe HR   Yes     3  

有人能说出两种方法的区别吗?第二种方法的好处是什么。

2个回答

在第二种情况下创建模型很困难,但更多信息驱动并为您提供更多预测能力。

您可以做的是使用第二种情况并创建一些特征变量。这些变量将提供诸如结婚后几个月内发生减员等信息。

所以想想你可以从这个趋势中得到什么其他信息。

第一种情况没有多大用处,因为它只是为您提供员工的最后信息,其中隐藏了许多实际上导致人员流失的重要相关信息。

这两个数据都可以用于更好的模型。由于您的目标是对员工是退出还是继续进行分类,因此使用每个人的每月条目并将它们(婚姻状况、经验、每日工作时间、年龄、薪水)构建为输出退出/继续的特征。使用可用数据训练分类器并使用它来预测新数据。