我正在做一个分类项目,其中一些特性是相互关联的,但我不确定如何处理它们。
我会这样简化我的项目:
- 有不同的工作,并且有多个人在从事这些工作。
- 这些人适合他们的工作。
- 替换某人只能产生负面影响或没有影响。
我有一个person1可以用person2代替一份工作,目标是预测它是否有负面影响。
每个人都有自己的属性,例如:体重、年龄、身高、智商、..
工作也有属性,例如:manualJob、本地化、温度、..
当我列出我的功能时,我有类似的东西:
(Person1 = P1,Person2 = P2,并且数据已经标准化)
P1_weight P2_weight P1_IQ P2_IQ manualJob tempJob neg_impact
0 0.25 0.50 0.25 0.25 1 0.25 1
1 0.75 0.25 0.50 0.25 0 0.50 0
2 0.50 0.75 0.75 0.50 1 0.25 1
...
为了预测 neg_impact特征,我们想要捕获的P1_weight && P2 权重特征(以及 IQs 特征之间)之间应该存在高度交互。
1.现在 P1_weight 和 P2_weight 之间的变化很重要,但是像 RandomForest 这样的经典模型是否可以捕捉这两个特征之间的联系?其他主题属性相同(P1_IQ && P2_IQ、P1_height && P2_height,..)
2.恐怕如果我将 P1_weight 和 P2_weight 之间的差异缩小为单个特征作为 diff (P1_weight - P2_weight),我会丢失一些信息。例如,P1_weight 可能与“manualJob”功能相关,如果我删除 P1_weight,此信息会丢失吗?
3.我在想,也许我可以用非折叠预测预处理那些链接的特征,并将这些预测作为原始特征的其余特征(manualJob、tempJob、..)的输入。这是个好主意吗 ?哪种模型更适合预处理来捕获这些链接特征的相关性?
注意:我的集合仅包含 ~1000 个元素