使用分类器的概率作为自变量来预测 Y

数据挖掘 机器学习 分类 统计数据 可能性
2022-02-28 01:25:35

假设您有一个带有(n_samples,m_features)的分类任务y~X一位同事告诉我,运行r个不同的分类器根据X预测y,然后使用给每个分类器的概率作为新的矩阵Xnew (n_samples_probabilities,r_columns)来训练一个新的分类器y~Xnew是正确的

我的问题是:

1)这是合理的应用吗?

2)如果是这样,这种方法是否有数学支持?

1个回答

这称为“堆叠集成”或简称为“堆叠”。

维基百科

我不知道有任何理论上的数学支持,但直觉上它可能会使r初始模型,可能(取决于最终模型)在性能最佳的数据段上推广模型。Stacking 一直在 Kaggle 比赛中获胜,尽管增加的复杂性可能使其对某些应用程序的吸引力降低。