模型混合的算法方法

数据挖掘 机器学习 集成建模
2022-02-23 19:18:09

模型混合——我的意思是从具有相同因变量和相同或相似的候选自变量的模型创建多组预测,而不是模型堆叠——是创建机器学习模型集合的一种流行方式。

例如:

Y = regression_predictions * .5 + tree_predictions * .5

虽然这种方法在各种用例中都很有用,但一个很好的例子是 Kaggle 比赛。在这些比赛中,你有:

  • 标记的训练数据
  • 未标记的预测(测试)数据
  • 每天允许提交一定数量的提交,通常是 5 次,其中您提交预测并接收基于指定评估指标(如 RMSE)的即时评分

我的问题是,是否有一个统计或逻辑方法框架可以指导您的模型的各种混合的测试?

也就是说,是否可以将某种算法或方法应用于决定如何改变预测混合的过程?

理想情况下,这样的框架还将指导何时添加或删除一组预测的决定,尽管即使是假设给定数量的模型的框架也会非常有用。

1个回答

这通常称为“集成学习”:wiki 链接

贝叶斯模型组合是一种流行的现代技术,通常比它所基于的贝叶斯模型平均提供更好的结果。后者倾向于将几乎所有的权重都赋予一个模型。