机器算法验证 - “弱学习者”是什么意思？ - 吾爱随笔录

机器算法验证分类支持向量机术语 adaboost pac学习

2022-01-26 13:10:55

谁能告诉我“弱学习者”这个词是什么意思？它应该是一个弱假设吗？我对弱学习器和弱分类器之间的关系感到困惑。两者是一样的还是有一些不同？

在 adaboost 算法中，T=10. 这是什么意思？我们为什么选择T=10？

3个回答

“弱”学习器（分类器、预测器等）只是表现相对较差的学习器——它的准确性高于偶然性，但只是勉强。通常，但并非总是如此，它在计算上很简单。弱学习器还建议将算法的许多实例（通过提升、装袋等）汇集在一起，以创建一个“强”的集成分类器。

Freund & Schapire 在最初的 AdaBoost 论文中提到了这一点：

也许这些应用中最令人惊讶的是推导了一种用于“增强”的新应用，即将一种“弱”的 PAC 学习算法，该算法的性能仅比随机猜测好一点，并具有任意高的准确度。—— （弗氏与夏皮尔，1995）

但我认为这句话实际上比这更古老——我见过人们引用迈克尔·卡恩斯（Michael Kearns）在 1980 年代的学期论文（？！）。

弱学习器的经典示例是决策树桩，即单级决策树（1R 或 OneR 是另一种常用的弱学习器；非常相似）。将 SVM 称为“弱学习器”会有些奇怪，即使在它表现不佳的情况下也是如此，但将单个决策树桩称为弱学习器是完全合理的，即使它本身表现得非常好。

Adaboost 是一种迭代算法

T

$T$ 通常表示迭代次数或“轮数”。该算法首先在数据上训练/测试弱学习器，对每个示例进行平均加权。被错误分类的样本在下一轮的权重增加，而正确分类的样本的权重减少。

我不确定有什么神奇之处 $T=10$ . 在 1995 年的论文中， $T$ 作为自由参数给出（即，您自己设置）。

弱学习器是这样一种学习器，无论训练数据上的分布如何，当它试图标记数据时，它总是会比机会做得更好。做得比机会好意味着我们总是会有小于 1/2 的错误率。

这意味着学习器算法总是要学习一些东西，并不总是完全准确，即在学习两者之间的关系时它很弱而且很差。 $X$ （输入）和 $Y$ （目标）。

但是接下来是boosting，我们首先查看训练数据并生成一些分布，然后找到一些低错误的弱学习器（分类器），每个学习器输出一些假设， $H_x$ . 这会产生一些 $Y$ （类标签），最后结合一组好的假设来生成最终假设。

这最终会改进弱学习器并将它们转换为强学习器。

欲了解更多信息：https ://youtu.be/zUXJb1hdU0k 。

弱学习器与弱分类器或弱预测器相同。这个想法是你使用一个分类器，嗯......，不是那么好，但至少比随机更好。好处是分类器将在过度拟合中具有鲁棒性。当然，您不会只使用一个，而是使用一大组，每个都比随机的要好一些。您选择/组合它们的确切方式取决于方法/算法，例如 AdaBoost。

在实践中，作为弱分类器，您可以在单个特征上使用简单阈值之类的东西。如果特征高于阈值，那么您预测它属于正面，否则您认为它属于负面。不确定 T=10，因为没有上下文，但我可以假设这是对某些特性进行阈值处理的示例。

其它你可能感兴趣的问题