数据挖掘 - 如何衡量不同算法的相关性 - 吾爱随笔录

数据挖掘机器学习集成建模

2022-02-16 08:54:11

在堆叠泛化中，几种算法在训练集（即第 1 层）上进行训练，然后使用第 2 层模型堆叠它们的预测。在许多文档中，据说第 1 层算法的相关性应该较低。如何计算算法之间的这种相关性？

2个回答

对于回归任务，相关性将只是预测值之间的相关性，对于二元分类，它将是预测概率之间的相关性。在多类分类中，您可以使用hetcorR 中的包找到预测因子变量之间的相关性

我不知道一个简单的比较方法。我读过更多的书，您希望在不同类型的算法中使用多样化的集合来减少“群体思考”，因此您会选择 SVM、NN、决策树等。如果在第 2 层，他们倾向于一起投票，那要么意味着他们都出于相同的原因而被愚弄，要么您找到了可预测的数据。

其它你可能感兴趣的问题