如何将随机效应(或重复测量)包含在 randomForest 中

机器算法验证 r 随机森林 随机效应模型
2022-02-14 04:46:06

我什至不确定这个问题是否有意义,但我想我看到了几篇论文的标题,他们提出了具有随机效应的随机森林。这在R中可能吗?

4个回答

是的,这是可能的。您应该查看“ RE-EM Trees: A Data Mining Approach for Longitudinal and Clustered Data ”以及相关的 R 包REEMtree

好久没看报纸了。我记得作者还没有尝试过将这些树组合在一起,但没有任何迹象表明它不起作用。

它们通常不一起使用,在组合它们之前应小心。

随机森林通常用作分类器。您将使用随机森林而不是其他方法(例如 K-means 聚类)的原因是您可能有大量要分类的维度。拥有大量维度的问题在于,如果您想测试维度顺序的所有组合,您将有大量选择(它的增长速度比维度因子的数量更快)。

随机效应通常用于对同一事物进行重复测量的回归。它们通常用于混合效应模型中,其中术语混合指的是固定效应和随机效应。固定效应被认为代表您将再次看到的参数(例如药物或人的年龄)。随机效应被认为代表了您将不会再看到的参数(例如特定人)的可变性实例。

有聚集数据时一起使用它们的例子http://dx.doi.org/10.1080/00949655.2012.741599http://www2.ims.nus.edu.sg/Programs/014swclass/files/denis.pdf .

我不知道有任何 R 包可以进行这种分析。

混合效应随机森林 (MERF) 是一回事。正如上面的答案所述,HEC Montreal 的 Larocque 博士的小组对它们进行了一些很好的研究。论文在这里:http ://www.tandfonline.com/doi/abs/10.1080/00949655.2012.741599 。

从本质上讲,将随机森林的非线性建模与线性随机效应结合起来在理论上是一种合理的方法。

我们刚刚发布了一个在 Python中使用上述算法实现 MERF 的开源包。

我们写了一篇关于该软件包以及如何将其用于集群数据集的详细博客文章。

目前,本文 ( doi:10.1177/0962280220946080 ) 对之前的算法进行了修订,包括之前答案中引用的算法。此外,该论文介绍了 R 库LongituRF,它允许计算所有这些算法和新算法。