我在具有分层结构的高维分组数据(50 个数字输入变量)上使用随机森林。数据在 70 个不同对象的 30 个位置进行 6 次重复收集,产生 12600 个数据点,这些数据点不是独立的。
似乎随机森林过度拟合了数据,因为 oob 误差远小于我们在训练期间将来自一个对象的数据留出然后用经过训练的随机森林预测留出对象的结果时得到的误差。此外,我有相关的残差。
我认为过度拟合是由于随机森林需要独立数据而引起的。是否可以告诉随机森林数据的层次结构?或者是否有另一种强大的集成或收缩方法可以处理具有强交互结构的高维分组数据?
有什么提示我可以做得更好吗?