我从未使用过随机森林,但我读过一些关于它的内容。到目前为止,我已经广泛使用 GLM/GAMLSS。
我想知道:
- RF 与 GLM/GAMLSS 相比有哪些优势?
- 使用随机森林有什么缺点?
我正在开始这项有大约 25 个预测变量的新研究,我想知道是否应该检查随机森林。
我能找到的一个缺点是:随机森林,至少是流行的应用程序,是不可更新的。这是真的?这对我来说很重要,因为我将在一些实时数据上运行它,并且需要吸收新信息。
我从未使用过随机森林,但我读过一些关于它的内容。到目前为止,我已经广泛使用 GLM/GAMLSS。
我想知道:
我正在开始这项有大约 25 个预测变量的新研究,我想知道是否应该检查随机森林。
我能找到的一个缺点是:随机森林,至少是流行的应用程序,是不可更新的。这是真的?这对我来说很重要,因为我将在一些实时数据上运行它,并且需要吸收新信息。
你应该尝试很多模型。“没有免费的午餐”定理指出,没有一个最好的模型——每种情况都是不同的。例如,逻辑回归在起作用时是可取的,因为参数非常易于解释。随机森林很棒,因为它们可以处理非常困难的模式,但忘记解释它们。
关键是——永远不要只坚持一种方法。
要考虑的一点是,您是否有兴趣做出预测或理解关联并进行推理(围绕效果的置信区间)。尽管随机森林提供了一个变量重要性的总结,但这种技术主要是针对预测的。没有推论。许多研究人员认为他们有兴趣做出预测,但往往与他们的目标不匹配。
话虽如此,您可以使用 glm 和 gamlss 进行预测。您还具有回归的灵活性。随机森林的一个好处是您不必指定交互等方面,因此,它可能会发现数据中的模式。此外,它还处理预测变量多于观察变量的情况。
尽管如此,有证据表明,诸如随机森林之类的技术并没有像传统技术那样有效地使用数据。需要更多的研究。
我认为这两种技术都可以以相同的方式更新。
参考文献: van der Ploeg, T., Austin, PC 和 Steyerberg, EW (2014)。现代建模技术需要大量数据:用于预测二分端点的模拟研究。BMC 医学研究方法论,14(1),137。
让我们举一些简单的例子来说明差异。我们的示例有一个自变量x和一个因变量 - 实数y或分类z:
x y z
...
0 0.01 A
1 1.98 A
2.01 4.02 B
2.99 6.01 B
...
可以看到它y随着x增长而增长,并且z=B值x大于 1.5 左右。这是 GLM 和类似方法摇摆不定的一个例子。很容易对y和z的新值做出良好的预测x。例如,x=0.5你会预测y=1和z=A(“你可以理解每个变量的直接影响和方向”,正如@HEITZ 所写)
x y z
...
0 0.01 A
1 1.98 B
2.01 0 A
2.99 2.01 B
4 0 A
5.01 2.00 B
...
我们可以再次在数据中看到一个清晰的模式,但是 GLM 和类似方法不能,xand yor之间的联系z不是线性的,甚至不是加法的。那是需要使用其他方法如随机森林的时候。基于 GLM 的预测x=3将y=1或多或少随机z=A或z=B。然而,RF 或类似方法可以预测我们所期望的:y=2和z=B.
通常我会这样做: