在堆叠泛化中,几种算法在训练集(即第 1 层)上进行训练,然后使用第 2 层模型堆叠它们的预测。在许多文档中,据说第 1 层算法的相关性应该较低。如何计算算法之间的这种相关性?
如何衡量不同算法的相关性
数据挖掘
机器学习
集成建模
2022-02-16 08:54:11
2个回答
对于回归任务,相关性将只是预测值之间的相关性,对于二元分类,它将是预测概率之间的相关性。在多类分类中,您可以使用hetcorR 中的包找到预测因子变量之间的相关性
我不知道一个简单的比较方法。我读过更多的书,您希望在不同类型的算法中使用多样化的集合来减少“群体思考”,因此您会选择 SVM、NN、决策树等。如果在第 2 层,他们倾向于一起投票,那要么意味着他们都出于相同的原因而被愚弄,要么您找到了可预测的数据。
其它你可能感兴趣的问题