数据挖掘 - 弱学习者和强学习者的定义 - 吾爱随笔录

弱学习者和强学习者的定义

数据挖掘监督学习

2022-03-07 03:08:11

弱学习者和强学习者的确切定义是什么，或者至少是主要思想是什么？例如，这些术语被用在诸如“Boosting is based on weak learningers”之类的命题中。
关于弱学习者属于（高偏差、低方差）和强学习者属于（低偏差、高方差）的观点。在不考虑特定数据集或数据分布的情况下如何定义这些术语？

例如，是否有可能找到所谓的弱学习器（低偏差）实际上是强学习器（低方差）的特定数据集？

更简单地说，学习方法 X 能否成为数据分布 A 的弱学习器，而成为数据分布 B 的强学习器？

1个回答

直观地说，弱学习器比随机猜测要好一些，但不是特别好。更准确地说，弱学习算法是一种生成某些分类器的算法，该分类器很有可能比随机猜测更好，具体取决于您的训练数据。

[1]中给出了更正式的定义；作者之一是 Leslie Valiant，他开发了 PAC 学习框架。给出的定义是在这个框架中给出的——如果你不熟悉，一个很好的参考是 Mohri's Foundations of Machine Learning的第 2 章。如果形式主义难以理解，希望更直观的定义会有所帮助——实际上，形式定义说了同样的话，但用更精确的术语。

最容易想到二元分类。我们当然可以产生一个概率正确的分类器 $1/2$ ，无论分布是什么：总是选择更常见的类！

弱学习算法的思想是要求多一点：我们能找到一个算法吗 $\mathcal A$ 这将为我们提供一个至少具有准确性的分类器 $1/2 + \varepsilon$ 大概率？请注意，分类器依赖于随机抽取的训练数据，因此我们必须在这里用概率说话。例如，我们可能不走运并绘制了训练数据，这使得算法变得困难。

我更喜欢 [2] 中对弱学习的介绍，所以在这里我将对其进行解释。

弱学习算法 $\mathcal A$ 是一个存在的算法 $\varepsilon > 0$ , $\delta \in (0, 1)$ 和 $N \in \mathbb{N}$ 这样给定一个随机抽取的训练集 $\{(X_i, Y_i)\}_{i = 1}^N$ 从任何分布，对应的分类器 $h_{\mathcal A}$ 算法构造满足

P [h_{A} (X) \neq Y] \leq 1 / 2 - ε

$\mathbb{P} \left [ h_\mathcal{A}(X) \neq Y\right ] \leq 1/2 - \varepsilon$ 概率大于

1 - δ

$1 - \delta$ 用于随机抽取

(X, Y)

$(X, Y)$ 从分布。

换句话说，对于定义的弱学习器，给定 $N$ 样本，该算法将至少比随机猜测的概率执行得更好 $1 - \delta$ 在任何分布。但是，它可能不会好很多： $\varepsilon$ 可能很小，所以我们只比随机猜测好一点。

在 [1] 和 [2] 中的正式定义下，每个强学习器也是弱学习器，因此，确实，如果存在强学习器，则弱学习器实际上可能是强学习器。一种算法当然有可能在一个分布上产生一个强学习器，同时满足弱学习算法的特性。

参考

[1] 迈克尔·卡恩斯和莱斯利·英勇。1994.学习布尔公式和有限自动机的密码学限制。J. ACM 41.1（1994 年 1 月），第 67-95 页。

[2] 里奥·布雷曼。1998.弧形分类器（作者进行了讨论和反驳）。安。统计学家。26.3，第 801-849 页。开放存取。

其它你可能感兴趣的问题

上一篇卷积层中的激活函数是干什么用的？下一篇为什么只有一种人工神经元？