我正在建立一个模型来预测特定员工的休假和病假。
从 2013 年 1 月 1 日到 2018 年 12 月 31 日,每个员工每天在数据集中有一行,标记为 0 或 1(如果那一天被视为休假或病假)。我正在使用位置、年龄、工作职位等信息。
我正在考虑使用员工 ID 作为训练模型的特征。一些用户有明显的模式,例如,连续几个星期在周一休假。另一方面,我觉得我没有足够的信息让每个员工都有一个模型,特别是如果他们最近被雇用。
经过一番研究,似乎对员工 ID 有意义的唯一编码是“One Hot Encoding”。但是,这将生成多达 10,000 个似乎不是非常理想的特征。
您有什么想法可以帮助我以更好的方式构建此模型吗?
提前致谢