许多人认为,基于树的方法在预测变量的单调变换下是不变的。但是最近我读了一篇论文(https://arxiv.org/pdf/1611.04561.pdf,后面简称为arxiv论文)说它是否不变取决于如何选择分割阈值(有三种方法) ,并且根据这篇论文,xgboost 在变换下是不变的,因为它使用左扫法。这在 pp.2 的最后一段和 pp.3 的第一段中提到。
但是当我阅读 Chen 的原始 xgboost 论文时,拆分算法看起来比 arxiv 论文中提到的任何方法都复杂得多,并且看起来它应该对转换敏感。我已经对几个数据集尝试了 xgboost 回归,如果我打开了列子采样,我确实会看到预测变量转换的不同结果。
谁能给我一些关于这个话题的确认?我主要对 arxiv 论文感到困惑。