我正在使用http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html来拟合基于回归树的梯度提升模型 (GBM)。我使用 alpha=0.5 的分位数损失,即我的损失函数是平均绝对误差 (MAE)。具有此损失函数的最佳模型是条件中位数,其中表示预测变量,是协变量向量。
我很少看到超出模型训练数据范围的预测。例如,我的训练数据中的可能位于中,并且(很少)我看到的预测。GBM 理论上可以做到这一点,还是我应该怀疑我的代码和/或 sklearn 中存在错误?
假设我正确理解随机森林 (RF),RF 应该不可能发生这种情况,因为预测值都是训练数据子集的均值/中位数(取决于使用绝对误差还是平方误差损失)。但 GBM 与 RF 不同,这种说法不成立。理论上,GBM 是否可以进行超出训练数据范围的预测?