我正在研究 Adaboost 分类算法,因为我想从头开始实现它。我了解它是如何工作的,但我无法理解某些步骤的放置位置。
我将在我的理解中描述 Adaboost 训练步骤(对于任何不正确的形式,请见谅):
- 初始化弱学习器
- 为数据集中的每个样本均等定义权重
- 合身到数据集
- 计算误差
- 计算重要性的, IE
- 重新计算正确分类样本的权重:
- 重新计算错误分类样本的权重:
- 标准化新样本权重:
- 对于所有后续学习者,基于加权随机选择选择样本,直到获得与原始数据集大小相同的数据集并执行相同的过程。
我的问题是:如何获得错误?关于实现,我应该先拟合数据集,然后从预测相同的数据集中得到错误吗?这似乎不正确。
我试图阅读有关此的不同来源,甚至 Statquest 频道的一个很好的解释也无法说明这一点。
谢谢!