在增强回归树的背景下,什么是“拟合函数”?

机器算法验证 机器学习 分类 大车 助推
2022-03-29 07:16:59

我正在关注package的增强回归树的教程dismo,它产生了两个图表,aboutfitted functionfitted value,没有解释。

library(dismo)
data(Anguilla_train)
head(Anguilla_train)

angaus.tc5.lr01 <- gbm.step(data=Anguilla_train, gbm.x=3:13, gbm.y=2,
                            family="bernoulli", tree.complexity=5,
                            learning.rate=0.01, bag.fraction=0.5)

gbm.plot(angaus.tc5.lr01, n.plots=11, write.title = FALSE)
gbm.plot.fits(angaus.tc5.lr01)
  • 在第一张图中,什么是fitted function,即y-axis还有关于x-axis大约的百分比是多少?

在此处输入图像描述

  • 在第二张图中,什么是fitted values这里的响应变量是二进制的。为什么我们的拟合值看起来是连续的?

在此处输入图像描述

1个回答

您的拟合模型最好被视为一个使用数据点并返回预测的函数,这是最普遍的拟合函数。例如,在线性回归中,拟合模型可以表示为估计模型系数的向量(β0,β1,,βn), 拟合函数为

f(x)=β0+β1x1++βnxn

对于提升树模型,拟合函数为

f(x)=g(iTi(x))

在哪里Ti是单个弱学习器(大多数实现中的树),并且g是一个链接函数。在你的例子中,g将预测从对数奇数转换为概率。

通常在一个R包中,您可以通过调用来评估拟合函数predict

您可以在训练数据点上评估拟合函数,这些是第二个图中的拟合值

您的第一个图通常称为部分依赖图一般来说,拟合函数的完整形式是非常高维的,人类的想象力无法完全形象化。为了缓解这个维度问题,部分依赖图平均了模型中除一个变量之外的所有变量的影响,并绘制了关于剩下的一个变量的平均拟合值。也可以制作看起来像表面的二维部分依赖图,您可以在此处查看示例。