机器算法验证 - 梯度提升回归是否有可能预测超出训练数据范围的值？ - 吾爱随笔录

我正在使用http://scikit-learn.org/stable/modules/generated/sklearn.ensemble.GradientBoostingRegressor.html来拟合基于回归树的梯度提升模型 (GBM)。我使用 alpha=0.5 的分位数损失，即我的损失函数是平均绝对误差 (MAE)。具有此损失函数的最佳模型是条件中位数，其中表示预测变量，是协变量向量。 $\text{median}[Y \;|\;X]$ $Y$ $X$

我很少看到超出模型训练数据范围的预测。例如，我的训练数据中的可能位于中，并且（很少）我看到的预测。GBM 理论上可以做到这一点，还是我应该怀疑我的代码和/或 sklearn 中存在错误？ $Y$ $[500, 20000]$ $\hat{Y} < 500$

假设我正确理解随机森林 (RF)，RF 应该不可能发生这种情况，因为预测值都是训练数据子集的均值/中位数（取决于使用绝对误差还是平方误差损失）。但 GBM 与 RF 不同，这种说法不成立。理论上，GBM 是否可以进行超出训练数据范围的预测？