xgboost 中 min_child_weight 参数的定义如下:
孩子需要的实例权重(粗麻布)的最小总和。如果树划分步骤导致一个叶子节点的实例权重之和小于 min_child_weight,则构建过程将放弃进一步的划分。在线性回归模式中,这仅对应于每个节点中需要的最小实例数。越大,算法就越保守。
我已经阅读了很多关于 xgboost 的内容,包括原始论文(参见公式 8 和等式 9 之后的那个)、这个问题以及与 xgboost 相关的大部分内容,这些内容出现在谷歌搜索的前几页。;)
基本上我仍然不满意为什么我们对粗麻布的总和施加约束?我对原始论文的唯一想法是它与加权分位数草图部分(以及方程 3 加权平方损失的重新表述)有关,它具有作为每个实例的“权重”。
另一个问题与为什么它只是线性回归模式下的实例数有关?我猜这与平方和方程的二阶导数有关?