我知道损失度量可以用作线性、对数或其他东西。这记录在http://lightgbm.readthedocs.io/en/latest/Parameters.html?highlight=logloss#metric-parameters
我想了解 LightGBM 如何处理不同尺度的变量。换句话说,我在运行 LightGBM 时有必要协调规模吗?(我习惯于线性回归,你需要进入线性比例。)
如果我有输入 x1、x2、x3、输出 y 和一些噪声 N,那么这里有一些不同尺度的示例。
我知道损失度量可以用作线性、对数或其他东西。这记录在http://lightgbm.readthedocs.io/en/latest/Parameters.html?highlight=logloss#metric-parameters
我想了解 LightGBM 如何处理不同尺度的变量。换句话说,我在运行 LightGBM 时有必要协调规模吗?(我习惯于线性回归,你需要进入线性比例。)
如果我有输入 x1、x2、x3、输出 y 和一些噪声 N,那么这里有一些不同尺度的示例。
通常,在基于树的模型中,特征的规模并不重要。这是因为在每个树级别上,无论相应的特征是否被缩放,可能的拆分分数都将相等。
你可以这样想:我们正在处理一个二元分类问题,我们要拆分的特征取值从 0 到 1000。如果将其拆分为 300,则 <300 的样本 90% 属于一个类别,而那些>300 属于一个类别的 30%。现在成像这个特征在 0 和 1 之间缩放。同样,如果你在 0.3 上分割,样本 <0.3 属于 90% 属于一个类别,而那些 >0.3 属于 30% 属于一个类别。
因此,您已经更改了拆分点,但样本的实际分布对于目标变量保持不变。