您如何从数学上证明,在以正负标记的正方形排列的训练集中,boosting 不可能有零误差?

机器算法验证 机器学习 数理统计
2022-03-13 17:25:49

我有以下数据:

在此处输入图像描述

假设我们希望仅使用一组水平和垂直决策树桩来完美分离这些点。也许使用 Boosting 或 Adaboost,但重点是任何具有坐标加权树桩的集合。

直观地“显而易见”的是,不能仅使用树桩来分离这个特定的数据集。但是,我无法用严格的数学证明来说服自己。如何严格证明这样的主张?

我想知道,在树桩集合开始无法完美分离数据之前,我们是否还需要对点数进行概括。这是什么时候发生的,它的证据是什么?

1个回答

在这个数据集上,树桩可以做四件重要的事情:

  • s1将左边两点分类为正;
  • s2将右边两点分类为正;
  • s3将前两点分类为正;
  • s4将底部两点分类为正数。

所以你最终学习的函数可以是其中每个

y^(x)=i=1nfi(x),
fsj

现在,请注意,该总和中的每个副本都会抵消的副本,因为它们是相反的,对于也是如此。所以实际上是一个整数组合s1s2s3s4y^y^(x)=as1(x)+bs3(x)

但是当您从上到下移动时,该表达式的前半部分不会改变,而后半部分总是以相同的量变化()。所以我们知道的输出要么总是随着数据点从上到下移动而增加(如果),或者总是减少(如果)。by^b<0b>0

  • 如果它在从上到下移动时总是增加,那么它不能让左上角和左下角都正确(因为顶部大于0,底部小于0)。

  • 如果它总是减小,那么同样它不能使右上角和右下角的点都正确。

因此,没有任何可能的增强树桩总和可以完美地分类数据集,QED。

(编辑:我使证明更容易理解。前一个是正确的,但没有提供太多的直觉,我想出了一种方法来做直观的事情,而不需要太多的案例分析。)