我正在解决 Kaggle 比赛,我的单个模型的分数达到了 0.121,我想知道什么时候开始使用集成/堆叠来提高分数。
我使用了 lasso 和 xgboost,显然这两种算法肯定存在差异。所以理论上堆叠应该比我的个人算法给我更好的输出。
但是如何确定堆叠是否值得,以及我们是否已经到达了特定模型准确性的死胡同?
我正在解决 Kaggle 比赛,我的单个模型的分数达到了 0.121,我想知道什么时候开始使用集成/堆叠来提高分数。
我使用了 lasso 和 xgboost,显然这两种算法肯定存在差异。所以理论上堆叠应该比我的个人算法给我更好的输出。
但是如何确定堆叠是否值得,以及我们是否已经到达了特定模型准确性的死胡同?
当单个模型捕获数据的独特特征时,堆叠将最有帮助。通常情况下,不同的架构在相同的数据上执行相似,如果有些不同的话。在这些情况下,集成/堆叠只会提供轻微的增量优势。在极限情况下,你只关心预测,你可以连接尽可能多的不同方法。但是,如果可解释性是关键,那么每个额外的组件模型都会使事情变得更加复杂。
您何时知道是否值得或是否已达到极限的具体问题可以像其他任何事情一样处理 - 与更简单的方法相比,您的增量 r-square/error/classification 准确性明显更好吗?