弱学习者和强学习者的定义

数据挖掘 监督学习
2022-03-07 03:08:11
  1. 弱学习者和强学习者的确切定义是什么,或者至少是主要思想是什么?例如,这些术语被用在诸如“Boosting is based on weak learningers”之类的命题中。

  2. 关于弱学习者属于(高偏差、低方差)和强学习者属于(低偏差、高方差)的观点。在不考虑特定数据集或数据分布的情况下如何定义这些术语?

例如,是否有可能找到所谓的弱学习器(低偏差)实际上是强学习器(低方差)的特定数据集?

更简单地说,学习方法 X 能否成为数据分布 A 的弱学习器,而成为数据分布 B 的强学习器?

1个回答

直观地说,弱学习器比随机猜测要好一些,但不是特别好。更准确地说,弱学习算法是一种生成某些分类器的算法,该分类器很有可能比随机猜测更好,具体取决于您的训练数据。

[1]中给出了更正式的定义;作者之一是 Leslie Valiant,他开发了 PAC 学习框架。给出的定义是在这个框架中给出的——如果你不熟悉,一个很好的参考是 Mohri's Foundations of Machine Learning的第 2 章。如果形式主义难以理解,希望更直观的定义会有所帮助——实际上,形式定义说了同样的话,但用更精确的术语。

最容易想到二元分类我们当然可以产生一个概率正确的分类器1/2,无论分布是什么:总是选择更常见的类!

弱学习算法的思想是要求多一点:我们能找到一个算法吗A这将为我们提供一个至少具有准确性的分类器1/2+ε大概率?请注意,分类器依赖于随机抽取的训练数据,因此我们必须在这里用概率说话。例如,我们可能不走运并绘制了训练数据,这使得算法变得困难。

我更喜欢 [2] 中对弱学习的介绍,所以在这里我将对其进行解释。


学习算法 A是一个存在的算法ε>0,δ(0,1)NN这样给定一个随机抽取的训练集{(Xi,Yi)}i=1N任何分布,对应的分类器hA算法构造满足

P[hA(X)Y]1/2ε
概率大于1δ用于随机抽取(X,Y)从分布。


换句话说,对于定义的弱学习器,给定N样本,该算法将至少比随机猜测的概率执行得更好1δ在任何分布。但是,它可能不会好很多ε可能很小,所以我们只比随机猜测好一点。

在 [1] 和 [2] 中的正式定义下,每个强学习器也是弱学习器,因此,确实,如果存在强学习器,则弱学习器实际上可能是强学习器。一种算法当然有可能在一个分布上产生一个强学习器,同时满足弱学习算法的特性。

参考

[1] 迈克尔·卡恩斯和莱斯利·英勇。1994.学习布尔公式和有限自动机的密码学限制J. ACM 41.1(1994 年 1 月),第 67-95 页。

[2] 里奥·布雷曼。1998.弧形分类器(作者进行了讨论和反驳)安。统计学家。26.3,第 801-849 页。开放存取