数据挖掘 - LightGBM 如何处理价值尺度？ - 吾爱随笔录

LightGBM 如何处理价值尺度？

数据挖掘回归 xgboost 梯度下降

2021-09-28 18:43:59

我知道损失度量可以用作线性、对数或其他东西。这记录在http://lightgbm.readthedocs.io/en/latest/Parameters.html?highlight=logloss#metric-parameters

我想了解 LightGBM 如何处理不同尺度的变量。换句话说，我在运行 LightGBM 时有必要协调规模吗？（我习惯于线性回归，你需要进入线性比例。）

如果我有输入 x1、x2、x3、输出 y 和一些噪声 N，那么这里有一些不同尺度的示例。

$y = x1 + x2 + x3 + N$
$y = exp(x1 + x2 + x3 + N)$
$y = log(x1 + x2 + x3 + N)$
$y = sqrt(x1 + x2 + x3 + N)$
$y = log(x1 * x2 * x3 * N)$

1个回答

通常，在基于树的模型中，特征的规模并不重要。这是因为在每个树级别上，无论相应的特征是否被缩放，可能的拆分分数都将相等。

你可以这样想：我们正在处理一个二元分类问题，我们要拆分的特征取值从 0 到 1000。如果将其拆分为 300，则 <300 的样本 90% 属于一个类别，而那些>300 属于一个类别的 30%。现在成像这个特征在 0 和 1 之间缩放。同样，如果你在 0.3 上分割，样本 <0.3 属于 90% 属于一个类别，而那些 >0.3 属于 30% 属于一个类别。

因此，您已经更改了拆分点，但样本的实际分布对于目标变量保持不变。

其它你可能感兴趣的问题

上一篇多类分类与二元分类下一篇增加决策树中的 n_estimators 参数是否总能提高准确性