机器学习中堆叠建模的建议

数据挖掘 机器学习 预测建模 无监督学习 监督学习
2021-10-08 03:12:59

我在训练数据集上建立了几个模型,我对结果不满意,我希望将它们组合在一起并生成一个新模型,所以这是我的想法,因为我已经有了我想要的现有模型的结果创建一个新数据集,将现有模型结果作为原始特征数据集之上的单独特征应用聚类过滤原始数据集中的一些数据,并希望在所有相同模型中训练模型并获得结果,那会是称为堆叠建模?

2个回答

那会被称为堆叠建模吗?

是的,这正是堆叠模型的含义。

我不明白集群在您的设计中的作用是什么?

标准方法在于仅使用 N个体学习者作为元模型的特征。训练/测试数据拆分有点复杂:元模型的训练需要来自各个模型的预测,因此数据可以这样拆分:

  • 单个模型的训练数据
  • 元模型的训练数据(应用单个模型)
  • 整个系统的测试数据

一般来说,为元模型选择一个简单的学习算法会更安全,因为过度拟合的风险更高(例如线性回归或多数投票)。


[下面评论的详细回答]

标准设置是这样的:

  1. 火车 N 个别型号 m1,...,mN 使用一级训练集 T1
  2. 应用这些模型以获得 N元分类器的特征。在这个阶段,使用来自的实例是个坏主意T1,因为各个分类器已经过训练 T1. 所以需要第二组实例T2:对于每个实例 xT2, 让 m1(x),...,mN(x) 是应用分类器产生的预测 m1,...,mN.
  3. 训练元分类器模型 M 使用 T2 作为训练集,有 m1(x),...,mN(x) 任何功能 xT2.
  4. 测试:像往常一样需要一组新的实例,比如说 T3. 对于任何情况xT3 通过应用计算预测 MN 通过各个模型获得的预测,即 M(m1(x),...,mN(x))

堆叠从数据集上的各种浅层或弱模型中进行预测。

像列一样堆叠 元特征(元特征=预测)。通常,线性元模型(如线性回归)适合该元特征数据集。可以把它想象成让多个模型,每个模型都有自己的预测,决定每个数据点的最佳价值是什么。意味着所有模型?也许意味着只有两个?元模型决定。

您将元特征与原始特征一起使用的方法类似于Boosting,它采用每个数据点的残差(真值和预测之间的差异)并将其用作通过迭代来纠正间隙迭代的特征。