据我了解您的问题,这两种方法之间的区别在于您应用于模型的限制领域。在集成学习期间,例如 xgboost,您将训练多个增强树模型,每个模型都将在数据集中的(随机)特征子集和(随机)物种子集上进行训练。这样,您将获得 N 个分类器,例如,每个分类器对您的问题的体验略有不同,但每个分类器都将在随机有限(没有特定限制)的数据块上进行训练。
如果您在训练之前应用聚类(出于任何原因,无论是分类器的多样性还是减少数据集以使其适合内存),您首先依靠聚类算法在数据集中找到某种社区,然后训练单独的分类器每个集群。我不完全确定它们如何在您的示例中进一步使用,但一种简洁的方法是为新数据分配特定集群并为该实例使用“正确”分类器。
举一个现实世界的例子,以贷款审批问题为例。在集成学习中,您将让三个人坐在同一个办公室,与不断需要资金的客户交谈,每个信贷审批人都有类似的经验,但会倾向于研究他们熟悉的特定数据,比如工作、婚姻状况或任何其他“特征”。
在集群中,您将有三个人批准贷款,但一个人将严格与农民合作,另一个人将调查最近被解雇的人的案例,第三个人将与急于购买新智能手机的学生打交道。这三个人都将解决同一个问题,但他们的经验将集中在一小部分人身上,而学生管理人员不是决定农民贷款的好选择,因为他没有评估他们的财务状况的经验情况。
当您拥有在培训方面自相矛盾的多样化数据时,聚类方法更有意义(基于性别、基于婚姻状况等的负载批准标准会有所不同,并且已婚人士的批准概率高于单身一次)由于责任和其他东西,即使他们的收入低于单人的收入) - 但是对于每个集群,您将拥有一个工作模型,其他集群模型将提供随机结果,因为它没有接受过其他集群数据的训练。
集成学习的效果很好,因为您可以获得一组对您的问题具有不同“经验”的模型。每个分类器都有自己的精度/召回/一般性能指标,如果三个具有不同特征和示例集的分类器就一个结果达成一致,通常可以肯定地说,如果三个分类器说你是一个苹果,它应该是一个苹果(因为每个分类器 1% 的错误率会给你 1%*1%*1% = 0.0001% 的机会,所有三个分类器都不正确)。
联合分类器错误率的算术并不是那么简单,因为通常集成子模型(这里谈论 xgboost)不是独立的,因为它们共享一些特征,但总体思路是这样的。