数据挖掘 - 校正 XGB 输出中的对数偏差 - 吾爱随笔录

我以前使用过 GAM，我试图对一个对数转换的变量进行回归。对数变换在预测变量的平均值中引入了负偏差，我通过将每个预测相乘来对此进行校正 $\exp(\hat y)$ 因数

⟨ \exp (δ \hat{y}) ⟩

$\langle \exp( \delta \hat y) \rangle$

在哪里 $\delta \hat y$ 是 GAM 的残差。

现在我正在使用 XGB，并尝试对对数转换的变量进行回归 $y$ 再来一次。预测 $\hat y$ 满足

\frac{\sum_{i} {\hat{y}}_{i}}{\sum_{i} y_{i}} = 0.999

$\frac{\sum_i \hat y_i}{\sum_i y_i} = 0.999$

所以总的来说它看起来不错。但是，当我exp-transform 我得到的变量时

\frac{\sum_{i} \exp ({\hat{y}}_{i})}{\sum_{i} \exp (y_{i})} = 0.861

$\frac{\sum_i \exp(\hat y_i)}{\sum_i \exp(y_i)} = 0.861$

这要糟糕得多。我怀疑这是由于负面偏见。有没有办法像 GAM/GLM 那样纠正 XGB 中的偏差？