为随机森林绘制创建变量的强制组合

数据挖掘 机器学习 r 随机森林
2022-03-08 21:23:46

问题

对于我的机器学习任务,我创建了一组预测变量。预测器以“捆绑”形式出现 - 多维测量(在我的情况下为 3 或 4 维)。

孔“束”只有在经过测量并将其全部放在一起时才有意义。

问题是,只能针对样本的一小部分测量不同的预测变量“束”,并且这些部分对于不同的“束”不必相交。

由于零件很小,因此估算会导致准确性大大降低(更准确地说是灾难性的)

可能的解决方案

我可以创建虚拟变量来标记是否对每个变量进行了测量。问题是,当随机森林绘制随机变量时,它是单独绘制的。

所以有两种基本方法可以解决这个问题:1)将每个“束”组合成一个预测器。这是可能的,但似乎信息会丢失。2)使随机森林不是单独地绘制变量,而是通过强制性的“捆绑”。

随机森林的问题

当随机森林随机抽取变量时,它会从它们的“捆绑包”中获取无用(或不太有用)的特征。我有一种感觉会导致准确性下降。

例子

例如我有变量a, a_measure, b, b_measure. 问题是,变量只有在变量存在a_measure时才有意义,对于. 因此,我要么必须将和组合成一个变量,要么让随机森林同时绘制两者,以防至少绘制其中一个。abaa_measure

问题

当针对总人口的一小部分测量不同的预测变量集并且这些预测变量集是强制性的“捆绑”时,对于问题的最佳实践解决方案是什么?

谢谢!

1个回答

您可能需要考虑梯度增强树而不是随机森林。它们也是一种基于集成树的方法,但由于此方法不对维度进行采样,因此不会遇到在任何特定时间都没有可用于拆分的有用预测器的问题。

GBDT 的不同实现有不同的处理缺失值的方法,这将对您的情况产生很大的影响;我相信 R 会进行三元拆分,这可能会正常工作。