语境:
为了预测员工流动率(员工会离职吗?),我使用了一种分类算法 (LDA) 来训练我的数据集,然后进行预测。
数据集非常小(500 行),大约 20 个特征,以下是一些示例:
- 年龄
- Years_Spent:员工在公司工作的年限。
- 部门(IT、商业、管理...)
- 薪水
- 涨薪
- Sale_Bonus ...
然而,人力资源经验告诉我们:
对于 Years_Spent < 1.5 的员工,Salary_Increase 是一项对营业额没有任何影响的特征(因为
Salary_Increase > 0 only when Years_Spent >1.5
)。Sale_Bonus 不会对那些不是广告的人产生任何影响。(因为 IT 人永远不会收到销售红利)
问题来了:如果我设置Salary_Increase = 0 for employees whose Years_Spent <1.5
and Sale_Bonus = 0 for those who are not commercials
,分类算法会取 0 作为一个很小的值,所以可以通过算法得出一个可能的结论:“employeeA will leave because he never received sale_bonus”,(但实际上, employeeA 来自 IT 部门,employeeA 永远不会收到 sale_bonus,因此employeeA 不会离开),正如我们所见,构造的模型是不正确的。
我的问题是:如何处理此类问题,以便分类算法可以理解 HR 经验?
感谢您的耐心阅读,欢迎各种讨论!