如何考虑特征之间的联系对机器学习问题进行建模

数据挖掘 机器学习 分类 特征工程 机器学习模型
2022-03-05 02:17:20

语境:

为了预测员工流动率(员工会离职吗?),我使用了一种分类算法 (LDA) 来训练我的数据集,然后进行预测。

数据集非常小(500 行),大约 20 个特征,以下是一些示例:

  • 年龄
  • Years_Spent:员工在公司工作的年限。
  • 部门(IT、商业、管理...)
  • 薪水
  • 涨薪
  • Sale_Bonus ...

然而,人力资源经验告诉我们:

  1. 对于 Years_Spent < 1.5 的员工,Salary_Increase 是一项对营业额没有任何影响的特征(因为Salary_Increase > 0 only when Years_Spent >1.5)。

  2. Sale_Bonus 不会对那些不是广告的人产生任何影响(因为 IT 人永远不会收到销售红利)

问题来了:如果我设置Salary_Increase = 0 for employees whose Years_Spent <1.5and Sale_Bonus = 0 for those who are not commercials,分类算法会取 0 作为一个很小的值,所以可以通过算法得出一个可能的结论:“employeeA will leave because he never received sale_bonus”,(但实际上, employeeA 来自 IT 部门,employeeA 永远不会收到 sale_bonus,因此employeeA 不会离开),正如我们所见,构造的模型是不正确的。

我的问题是:如何处理此类问题,以便分类算法可以理解 HR 经验?

感谢您的耐心阅读,欢迎各种讨论!

1个回答

欢迎来到本站!

您在上面描述的内容称为交互

您应该考虑您希望使用的算法以及它是否允许预测变量之间的交互。一些技术——如广义线性模型——将需要明确说明交互,而基于树的算法将自动捕获交互。