分组数据上的随机森林

机器算法验证 回归 随机森林
2022-03-22 11:40:14

我在具有分层结构的高维分组数据(50 个数字输入变量)上使用随机森林。数据在 70 个不同对象的 30 个位置进行 6 次重复收集,产生 12600 个数据点,这些数据点不是独立的。

似乎随机森林过度拟合了数据,因为 oob 误差远小于我们在训练期间将来自一个对象的数据留出然后用经过训练的随机森林预测留出对象的结果时得到的误差。此外,我有相关的残差。

我认为过度拟合是由于随机森林需要独立数据而引起的。是否可以告诉随机森林数据的层次结构?或者是否有另一种强大的集成或收缩方法可以处理具有强交互结构的高维分组数据?

有什么提示我可以做得更好吗?

2个回答

派对也很晚,但我认为这可能与我几年前所做的事情有关。该作品在这里发表:

http://journals.plos.org/plosone/article?id=10.1371/journal.pone.0093379

并且是关于将变量相关性处理成决策树的集合。您应该查看指向许多处理此类问题的建议的参考书目(这在“遗传”领域很常见)。

源代码可在此处获得(但不再真正维护)。

随机森林的过度拟合可能由不同的原因引起,并且很大程度上取决于射频参数。从您的帖子中不清楚您是如何调整射频的。

以下是一些可能会有所帮助的提示:

  1. 增加树的数量

  2. 调整树的最大深度。这个参数很大程度上取决于手头的问题。使用较小的树可以帮助解决过度拟合问题。