数据挖掘 - 如何考虑特征之间的联系对机器学习问题进行建模 - 吾爱随笔录

语境：

为了预测员工流动率（员工会离职吗？），我使用了一种分类算法 (LDA) 来训练我的数据集，然后进行预测。

数据集非常小（500 行），大约 20 个特征，以下是一些示例：

年龄
Years_Spent：员工在公司工作的年限。
部门（IT、商业、管理...）
薪水
涨薪
Sale_Bonus ...

然而，人力资源经验告诉我们：

对于 Years_Spent < 1.5 的员工，Salary_Increase 是一项对营业额没有任何影响的特征（因为Salary_Increase > 0 only when Years_Spent >1.5）。
Sale_Bonus 不会对那些不是广告的人产生任何影响。（因为 IT 人永远不会收到销售红利）

问题来了：如果我设置Salary_Increase = 0 for employees whose Years_Spent <1.5and Sale_Bonus = 0 for those who are not commercials，分类算法会取 0 作为一个很小的值，所以可以通过算法得出一个可能的结论：“employeeA will leave because he never received sale_bonus”，（但实际上， employeeA 来自 IT 部门，employeeA 永远不会收到 sale_bonus，因此employeeA 不会离开），正如我们所见，构造的模型是不正确的。

我的问题是：如何处理此类问题，以便分类算法可以理解 HR 经验？

感谢您的耐心阅读，欢迎各种讨论！