弱学习者和强学习者的确切定义是什么,或者至少是主要思想是什么?例如,这些术语被用在诸如“Boosting is based on weak learningers”之类的命题中。
关于弱学习者属于(高偏差、低方差)和强学习者属于(低偏差、高方差)的观点。在不考虑特定数据集或数据分布的情况下如何定义这些术语?
例如,是否有可能找到所谓的弱学习器(低偏差)实际上是强学习器(低方差)的特定数据集?
更简单地说,学习方法 X 能否成为数据分布 A 的弱学习器,而成为数据分布 B 的强学习器?
弱学习者和强学习者的确切定义是什么,或者至少是主要思想是什么?例如,这些术语被用在诸如“Boosting is based on weak learningers”之类的命题中。
关于弱学习者属于(高偏差、低方差)和强学习者属于(低偏差、高方差)的观点。在不考虑特定数据集或数据分布的情况下如何定义这些术语?
例如,是否有可能找到所谓的弱学习器(低偏差)实际上是强学习器(低方差)的特定数据集?
更简单地说,学习方法 X 能否成为数据分布 A 的弱学习器,而成为数据分布 B 的强学习器?
直观地说,弱学习器比随机猜测要好一些,但不是特别好。更准确地说,弱学习算法是一种生成某些分类器的算法,该分类器很有可能比随机猜测更好,具体取决于您的训练数据。
[1]中给出了更正式的定义;作者之一是 Leslie Valiant,他开发了 PAC 学习框架。给出的定义是在这个框架中给出的——如果你不熟悉,一个很好的参考是 Mohri's Foundations of Machine Learning的第 2 章。如果形式主义难以理解,希望更直观的定义会有所帮助——实际上,形式定义说了同样的话,但用更精确的术语。
最容易想到二元分类。我们当然可以产生一个概率正确的分类器,无论分布是什么:总是选择更常见的类!
弱学习算法的思想是要求多一点:我们能找到一个算法吗这将为我们提供一个至少具有准确性的分类器大概率?请注意,分类器依赖于随机抽取的训练数据,因此我们必须在这里用概率说话。例如,我们可能不走运并绘制了训练数据,这使得算法变得困难。
我更喜欢 [2] 中对弱学习的介绍,所以在这里我将对其进行解释。
弱学习算法 是一个存在的算法,和这样给定一个随机抽取的训练集从任何分布,对应的分类器算法构造满足
换句话说,对于定义的弱学习器,给定样本,该算法将至少比随机猜测的概率执行得更好在任何分布。但是,它可能不会好很多:可能很小,所以我们只比随机猜测好一点。
在 [1] 和 [2] 中的正式定义下,每个强学习器也是弱学习器,因此,确实,如果存在强学习器,则弱学习器实际上可能是强学习器。一种算法当然有可能在一个分布上产生一个强学习器,同时满足弱学习算法的特性。
[1] 迈克尔·卡恩斯和莱斯利·英勇。1994.学习布尔公式和有限自动机的密码学限制。J. ACM 41.1(1994 年 1 月),第 67-95 页。
[2] 里奥·布雷曼。1998.弧形分类器(作者进行了讨论和反驳)。安。统计学家。26.3,第 801-849 页。开放存取。