GOSS 背后的数学(基于梯度的一侧采样)?

数据挖掘 机器学习 lightgbm
2021-09-27 23:22:17

根据我通过书籍和谷歌搜索的理解,

GOSS (Gradient-Based One Side Sampling)是一种新颖的采样方法,它根据梯度对实例进行下采样。正如我们所知,具有小梯度的实例训练有素(训练误差小),而具有大梯度的实例训练不足。一种简单的下采样方法是通过仅关注具有大梯度的实例来丢弃具有小梯度的实例,但这会改变数据分布。简而言之,GOSS 保留了大梯度的实例,同时对梯度小的实例进行随机采样。来源

LightGBM使用基于梯度的单侧采样 (GOSS) 的新技术来过滤数据实例以找到分割值,而 XGBoost 使用预排序算法和基于直方图的算法来计算最佳分割。

有人可以解释一下 GOSS 背后的数学原理吗?

1个回答

Wang et al., (2019) 提供了一个很好而清晰的解释。请查看他们的论文以找到您正在寻找的答案:

第二部分。贝叶斯优化 LIGHTGBM

Section: A. LightGBM的原理

Wang, R., Liu, Y., Ye, X., Tang, Q., Gou, J., Huang, M., & Wen, Y. (2019)。基于贝叶斯优化LightGBM的电力系统暂态稳定性评估。2019 IEEE第三届能源互联网与能源系统集成会议(EI2)。doi: 10.1109/ei247390.2019.9062027