在 Boosting 的上下文中,“夸张”是什么意思?

数据挖掘 机器学习 Python r 助推
2022-02-17 21:22:57

我正在学习提升,机器学习集成元算法。教授正在将 3 个弱分类器组合成一个 ensemble,并表示在这个时间点之前很容易理解。拿一个数据集,训练一个简单的模型,找到最小的错误率,就像这样。这个想法很容易实现,例如,梯度下降将使逻辑回归到最小的错误率。然后,教授用夸大的分类器错误来谈论数据。

我的问题:这是什么意思?任何人都可以根据 Python 或 R 中的开放数据集提供此操作的示例吗?

1个回答

不确定,但“夸张”可能是谈论“过度拟合”的另一种方式。

Boosting 是顺序模型:每次构建新树时,它都会使用先例的结果,并专注于残差(先例树表现不佳的地方)。为此,该模型夸大了先例错误的权重。

如果你构建的树太多,最后的树会学习噪声,因为残差包含的噪声比信息多。您的训练数据集将具有出色的错误率(“夸大错误率”),但如果您将模型应用于新数据集,则错误会更低。