在使用堆叠时,是否总是可以通过添加更多的基分类器、基分类器的类型和特征来提高准确性?
Stacking:更多的基分类器总是能提高准确性吗?
机器算法验证
机器学习
分类
准确性
集成学习
堆叠
2022-03-25 09:25:52
1个回答
与任何分类器一样,当新特征包含有关标签的新信息时,添加新输入特征可以提高分类准确性。由于分类器不完善并且可能无法利用信息,因此无法保证这种性能改进。如果新功能与现有功能共享信息,那么新功能可能有帮助,也可能没有帮助。例如,信号的多个噪声副本(或可逆变换版本)可以帮助“平均”噪声。但是,如果没有噪声或噪声与信号相关,那么多个副本可能只是多余的。如果新功能不包含有关标签的信息,那么在最好的情况下它们将无济于事,而在最坏的情况下会损害性能。在所有情况下,都必须考虑维度灾难。更多特征的存在可能会伤害许多分类器,并可能增加过度拟合的机会。如果新功能的好处很小,这种影响可能会掩盖新功能的好处。
将新的基分类器添加到堆叠设置时情况类似,因为基分类器的输出是最终分类器的特征。上面所有相同的论点在这里都成立。在这种情况下,这些“二级”特征可能是相关的,因为所有基础分类器都试图预测相同的事物。但是,他们做得不够理想。希望它们以不同的方式表现,以便最终分类器可以将嘈杂的预测组合成更好的最终预测。那么,松散地,添加新的基分类器最有可能在它们做得很好并且行为与现有的基分类器不同时提供帮助,但这并不能保证。如果新分类器偶然执行,它们将无济于事,并且可能会受到伤害。最终的分类器可能会过拟合,
其它你可能感兴趣的问题