合奏的合奏?

机器算法验证 机器学习 数据挖掘 集成学习 装袋
2022-04-11 14:40:52

我喜欢集成学习者的想法,尤其是 Bagging,但我一直想知道为什么他们不是最强大的学习者,因为他们有一个干净的动机。我没有这个问题的答案,但我有另一个想法。

通常在 Bagging 中,人们使用相同的分类器进行学习。因此,他们将数据集划分为切片,并为每个切片训练相同类型的分类器(例如逻辑回归),然后使用投票。

但我的问题是为什么不使用合奏的合奏?为什么不创建逻辑回归的bagging分类器,SVM的bagging分类器,ANN的bagging分类器,随机森林的bagging分类器,然后使用投票。所以每个分类器都是一个集合,然后所有的集合变成一个集合。然后再次使用投票。

有没有人试过这个?文件?... ETC?必须有!

2个回答

虽然不是合奏合奏的方法,但我看到了许多相似之处:

Caruana、Rich、Alexandru Niculescu-Mizil、Geoff Crew 和 Alex Ksikes。“从模型库中选择集合。” 在第 21 届机器学习国际会议论文集上,p. 18. ACM,2004 年。

此处无需付费专区:http ://www.cs.cornell.edu/~caruana/ctp/ct.papers/caruana.icml04.icdm06long.pdf

这个想法是从各种分类器(如 SVM、ANN、KNN 和决策树)构建一个集成。此外,不是优化每个单独分类器的参数,而是简单地为构建集合的库中的每个参数值包含一个分类器。

由此产生的集成称为异质集成,与更常见的同质集成(如随机森林)形成对比,其中基础学习者都是同一类型。

这种异构集成已被证明可以在信用风险方面实现最先进的分类性能。请参阅 Lessman 等人(2013 年)“信用评分的最先进分类算法基准测试:十年更新”,可在此处获取:http ://www.business-school.ed.ac.uk/waf/crc_archive /2013/42.pdf

有关文献的指针,请参阅@M 的好答案。伯克。我只有一个小评论,这可以解释为什么这些方法并不普遍,而且可能不会。

从一开始我就不确定结果是否会付出努力。Bagging 的标准参数表明,只要结果不相关,方差就会减小。更详细(引用 Hastie 等人,第 15 章),如果您有 iid 随机变量,每个变量都具有方差和成对相关,则平均值的方差为Bσρ

ρσ2+1ρBσ2.

如果你现在有一个经过良好调整的随机森林集成,我猜你提到的任何通用方法都可能与随机森林预测有很大的相关性,因此你几乎不会得到改进。这可能适用于任何其他经过良好调整的集成(比如人工神经网络、支持向量机等)。

此外,在集成中放入越来越多的模型也可能导致过度拟合(如果集成没有正确规范化)。