我正在将模型组合在一起以提高整体性能。目前,我正在通过交叉验证下的性能来衡量每个模型,并且效果相当好。
显然,集成的最佳情况是我有许多性能良好的模型,它们彼此之间的相关性不是很好。
然而,实际上我的一些模型非常密切相关,一些不太好,并且每个模型都有不同的性能。
在我有多个密切相关的强模型和一个不太强的模型相关性不强的情况下,这是有问题的。我可以通过放弃我的一些强模型来获得更好的整体性能,以确保我不太强的模型仍然有一些影响。
他们众所周知的方法是将相关性和性能测量结合在一起以最大限度地提高整体性能吗?