根据我通过书籍和谷歌搜索的理解,
GOSS (Gradient-Based One Side Sampling)是一种新颖的采样方法,它根据梯度对实例进行下采样。正如我们所知,具有小梯度的实例训练有素(训练误差小),而具有大梯度的实例训练不足。一种简单的下采样方法是通过仅关注具有大梯度的实例来丢弃具有小梯度的实例,但这会改变数据分布。简而言之,GOSS 保留了大梯度的实例,同时对梯度小的实例进行随机采样。来源
LightGBM使用基于梯度的单侧采样 (GOSS) 的新技术来过滤数据实例以找到分割值,而 XGBoost 使用预排序算法和基于直方图的算法来计算最佳分割。
有人可以解释一下 GOSS 背后的数学原理吗?