数据挖掘 - 为什么 Adaboost SAMME 需要 f 是可估计的？ - 吾爱随笔录

数据挖掘决策树多类分类数学 adaboost

2022-03-02 08:32:36

我试图了解SAMME AdaBoost背后的数学原理：

在某个阶段，本文添加了一个f可估计的约束：

我不明白为什么需要这样做。有人可以更好地解释为什么需要这个限制吗？

同样，是否可以使用与论文中添加的约束不同的约束来使 f 可估计？

1个回答

想一想，如果 $f$ 是不可估计的，它可以添加任何常数，而不会影响过程的结果。

这意味着如果没有施加其他约束， $f$ 没有很好/唯一的定义，实际上代表了一整类函数。这显然需要修复，并且需要添加一些自然约束（以唯一地修复 $f$ ）。

另一方面，附加约束也可以看作是过程的一个自由参数，然而它需要以某种方式固定在过程的具体实例中才能发生。

与物理学类比，该算法是“规范不变”的，但是对于要解决的任何具体物理问题，都需要选择和固定一些“规范”。

他们选择施加对称约束AdaBoost，这在 2 类情况下减少到通常的情况。

可以施加另一种约束 $f$ （而不是对称的），如果需要，选择满足其他标准（只要它可以唯一地固定 $f$ ）。

例如，一般的非对称约束也是有效的：

f_{1} + \dots + f_{K} = c

$f_1 + \dots + f_K = c$

对于任意常数 $c$ . 这也修复了 $f$ 独特的是，它可以引入偏爱某些类别而不是其他类别的偏见（例如，对于不平衡的问题）。另外，除非 $c=0$ ，在 2 类情况下不会减少到（对称）AdaBoost（这可能是可取的，也可能不是可取的）。

其它你可能感兴趣的问题