据我了解,高度相关的变量不会导致随机森林模型中的多重共线性问题(如果我错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在这个集合上的权重会超过其他集合吗?
例如,有两组信息(A,B)具有相同的预测能力。多变的,……都包含信息A,只有Y包含信息B。当随机抽样变量时,会不会大部分树都在信息A上生长,结果信息B没有被完全捕获?
据我了解,高度相关的变量不会导致随机森林模型中的多重共线性问题(如果我错了,请纠正我)。但是,另一方面,如果我有太多包含相似信息的变量,那么模型在这个集合上的权重会超过其他集合吗?
例如,有两组信息(A,B)具有相同的预测能力。多变的,……都包含信息A,只有Y包含信息B。当随机抽样变量时,会不会大部分树都在信息A上生长,结果信息B没有被完全捕获?
旧线程,但我不同意共线性不是随机森林模型的问题的笼统说法。当数据集具有两个(或更多)相关特征时,从模型的角度来看,这些相关特征中的任何一个都可以用作预测器,而没有具体的偏好。
然而,一旦使用其中一个,其他的重要性就会显着降低,因为它们可以有效地去除的杂质已经被第一个特征去除了。
因此,它们将具有较低的报告重要性。当我们想要使用特征选择来减少过度拟合时,这不是问题,因为删除大部分与其他特征重复的特征是有意义的,但是在解释数据时,可能会导致错误的结论,即其中一个变量是一个强预测变量,而同一组中的其他变量并不重要,而实际上它们与响应变量的关系非常接近。
由于在每个节点创建时随机选择特征,这种现象的影响有所降低,但通常不会完全消除这种影响。
以上内容大多来自这里:Selecting good features
这是正确的,但因此在变量 Y 可用的大多数子抽样中,它会产生最好的分割。
您可以尝试增加 mtry,以确保更频繁地发生这种情况。
您可以尝试递归相关修剪,即依次删除两个一起具有最高相关性的变量之一。停止这种修剪的合理阈值可能是任何一对相关性(皮尔逊)低于
您可以尝试递归变量重要性修剪,即依次删除变量重要性最低的 20%。尝试例如来自 randomForest 包的 rfcv。
您可以尝试对冗余变量进行一些分解/聚合。
添加到上述解释的一件事:基于 Genuer 等人,2010 年的实验:
罗宾·格努尔、让-米歇尔·波吉、克里斯汀·图洛-马洛特。使用随机森林进行变量选择。模式识别快报,Elsevier,2010,31 (14),pp.2225-2236。
当变量个数大于观测数 p>>n 时,他们在每个 RF 模型中一一添加与已知重要变量高度相关的变量,并注意到变量发生变化(已知重要变量的 y 轴相对值较小)但变量的重要性顺序保持不变,甚至相对值的顺序仍然非常相似,并且它们仍然可以从噪声变量中显着识别(不太相关的变量)。当复制次数(将高度相关的变量与两个先前已知的最重要的变量相加)增加时,还要检查第 2231 页中的表格,
为了解释的变量选择,他们构建了许多(例如,50个)RF模型,他们一一引入重要变量,并选择OOB错误率最低的模型进行解释和变量选择。
对于用于预测目的的变量选择过程,“在每个模型中,我们通过测试执行顺序变量引入:仅当误差增益超过阈值时才添加变量。其想法是误差减少必须显着大于获得的平均变化通过添加噪声变量。”