LightGBM 如何处理价值尺度?

数据挖掘 回归 xgboost 梯度下降
2021-09-28 18:43:59

我知道损失度量可以用作线性、对数或其他东西。这记录在http://lightgbm.readthedocs.io/en/latest/Parameters.html?highlight=logloss#metric-parameters

我想了解 LightGBM 如何处理不同尺度的变量。换句话说,我在运行 LightGBM 时有必要协调规模吗?(我习惯于线性回归,你需要进入线性比例。)

如果我有输入 x1、x2、x3、输出 y 和一些噪声 N,那么这里有一些不同尺度的示例。

  • 是的=X1+X2+X3+ñ
  • 是的=eXp(X1+X2+X3+ñ)
  • 是的=lG(X1+X2+X3+ñ)
  • 是的=sqr(X1+X2+X3+ñ)
  • 是的=lG(X1*X2*X3*ñ)
1个回答

通常,在基于树的模型中,特征的规模并不重要。这是因为在每个树级别上,无论相应的特征是否被缩放,可能的拆分分数都将相等。

你可以这样想:我们正在处理一个二元分类问题,我们要拆分的特征取值从 0 到 1000。如果将其拆分为 300,则 <300 的样本 90% 属于一个类别,而那些>300 属于一个类别的 30%。现在成像这个特征在 0 和 1 之间缩放。同样,如果你在 0.3 上分割,样本 <0.3 属于 90% 属于一个类别,而那些 >0.3 属于 30% 属于一个类别。

因此,您已经更改了拆分点,但样本的实际分布对于目标变量保持不变。