最近,我对模型堆叠作为一种集成学习的形式产生了兴趣。特别是,我对一些用于回归问题的玩具数据集进行了一些实验。我基本上实现了单独的“0级”回归器,将每个回归器的输出预测存储为“元回归器”作为其输入的新特征,并将这个元回归器拟合到这些新特征(来自级别的预测0 个回归变量)。在针对验证集测试元回归器时,我非常惊讶地看到对单个回归器的适度改进。
所以,这是我的问题:为什么模型堆叠有效?直观地说,我希望进行堆叠的模型表现不佳,因为与每个 0 级模型相比,它似乎具有贫乏的特征表示。也就是说,如果我在具有 20 个特征的数据集上训练 3 个 0 级回归器,并将这些 0 级回归器的预测用作我的元回归器的输入,这意味着我的元回归器只有 3 个特征可以学习。似乎 0 级回归器用于训练的 20 个原始特征中编码的信息比元回归器用于训练的 3 个输出特征中编码的信息更多。