问题
对于我的机器学习任务,我创建了一组预测变量。预测器以“捆绑”形式出现 - 多维测量(在我的情况下为 3 或 4 维)。
孔“束”只有在经过测量并将其全部放在一起时才有意义。
问题是,只能针对样本的一小部分测量不同的预测变量“束”,并且这些部分对于不同的“束”不必相交。
由于零件很小,因此估算会导致准确性大大降低(更准确地说是灾难性的)
可能的解决方案
我可以创建虚拟变量来标记是否对每个变量进行了测量。问题是,当随机森林绘制随机变量时,它是单独绘制的。
所以有两种基本方法可以解决这个问题:1)将每个“束”组合成一个预测器。这是可能的,但似乎信息会丢失。2)使随机森林不是单独地绘制变量,而是通过强制性的“捆绑”。
随机森林的问题
当随机森林随机抽取变量时,它会从它们的“捆绑包”中获取无用(或不太有用)的特征。我有一种感觉会导致准确性下降。
例子
例如我有变量a, a_measure, b, b_measure. 问题是,变量只有在变量存在a_measure时才有意义,对于. 因此,我要么必须将和组合成一个变量,要么让随机森林同时绘制两者,以防至少绘制其中一个。abaa_measure
问题
当针对总人口的一小部分测量不同的预测变量集并且这些预测变量集是强制性的“捆绑”时,对于问题的最佳实践解决方案是什么?
谢谢!