数据挖掘 - 如何处理机器学习中的相关特征 - 吾爱随笔录

我正在做一个分类项目，其中一些特性是相互关联的，但我不确定如何处理它们。

我会这样简化我的项目：

有不同的工作，并且有多个人在从事这些工作。
这些人适合他们的工作。
替换某人只能产生负面影响或没有影响。

我有一个person1可以用person2代替一份工作，目标是预测它是否有负面影响。

每个人都有自己的属性，例如：体重、年龄、身高、智商、..
工作也有属性，例如：manualJob、本地化、温度、..

当我列出我的功能时，我有类似的东西：
（Person1 = P1，Person2 = P2，并且数据已经标准化）

     P1_weight   P2_weight   P1_IQ    P2_IQ    manualJob   tempJob   neg_impact 
0       0.25       0.50      0.25     0.25        1        0.25       1 
1       0.75       0.25      0.50     0.25        0        0.50       0  
2       0.50       0.75      0.75     0.50        1        0.25       1  
...

为了预测 neg_impact特征，我们想要捕获的P1_weight && P2 权重特征（以及 IQs 特征之间）之间应该存在高度交互。

1.现在 P1_weight 和 P2_weight 之间的变化很重要，但是像 RandomForest 这样的经典模型是否可以捕捉这两个特征之间的联系？其他主题属性相同（P1_IQ && P2_IQ、P1_height && P2_height,..）

2.恐怕如果我将 P1_weight 和 P2_weight 之间的差异缩小为单个特征作为 diff (P1_weight - P2_weight)，我会丢失一些信息。例如，P1_weight 可能与“manualJob”功能相关，如果我删除 P1_weight，此信息会丢失吗？

3.我在想，也许我可以用非折叠预测预处理那些链接的特征，并将这些预测作为原始特征的其余特征（manualJob、tempJob、..）的输入。这是个好主意吗？哪种模型更适合预处理来捕获这些链接特征的相关性？

注意：我的集合仅包含 ~1000 个元素