RandomForest 是否忽略空间独立性?

机器算法验证 随机森林 空间的 独立
2022-03-23 17:49:18

我为世界上每个国家/地区设置了 5 个变量,我需要分析它们对自变量的影响和相互作用。随机森林对于我的范围来说已经足够了,因为它处理非线性关系并预测变量的重要性。但是,我想知道空间依赖性是否可能是一个问题。我从未见过在 RF 应用程序中讨论过空间依赖性,即使它已被广泛用于空间数据。

1个回答

您的响应或解释变量的空间自相关没有问题。这是一种完全非参数化的技术。我已经将它用于基于来自常规网格的原位数据对我国的结构多样性变量进行插值,并将坐标作为协变量引入甚至可以产生更好的预测。这是因为随机森林基于分而治之的方法(分类和回归树),这意味着它将您的特征空间分成不相交的子集,其中更简单的模型(默认情况下,回归情况下的简单平均值)可以产生良好的预测。在我的例子中,将坐标作为变量引入,利用了空间自相关性,因为该国的某些地理子集表现出同质性是有道理的。