这是最先进的回归方法吗?

机器算法验证 预测模型 助推 装袋 堆叠 模型平均
2022-02-14 19:40:08

我已经关注 Kaggle 比赛很长时间了,我开始意识到许多获胜策略都涉及使用“三巨头”中的至少一种:bagging、boosting 和 stacking。

对于回归,与其专注于构建一个可能的最佳回归模型,不如构建多个回归模型,例如(广义)线性回归、随机森林、KNN、NN 和 SVM 回归模型,并以合理的方式将结果混合成一个模型似乎是- 多次执行每个单独的方法。

当然,对每种方法的扎实理解是关键,并且可以基于线性回归模型讲述一个直观的故事,但我想知道这是否已成为最先进的方法,以实现最佳结果。

2个回答

众所周知,至少从 1960 年后期开始,如果您对多个预测进行平均计算,那么在许多情况下,最终的总体预测将优于单个预测。Bagging、boosting 和 stacking都是基于这个想法。所以是的,如果你的目标纯粹是预测,那么在大多数情况下,这是你能做的最好的。这种方法的问题在于它是一种黑盒方法,它返回结果但不能帮助您理解和解释它。显然,它也比任何其他方法的计算量更大,因为您必须计算很少的预测而不是单个预测。

† 这通常与任何预测有关,但通常在预测文献中有所描述。


温克勒,RL。和 Makridakis, S. (1983)。预测的组合。 JR统计。社会党。答:146 (2)、150-157。

Makridakis, S. 和 Winkler, RL (1983)。预测的平均值:一些实证结果。 管理科学,29 (9) 987-996。

克莱门,RT (1989)。结合预测:评论和带注释的参考书目。 国际预测杂志, 5,559-583。

贝茨,JM 和格兰杰,CW(1969 年)。预测的组合。 或者, 451-468。

Makridakis, S. 和 Hibon, M. (2000)。M3 竞赛:结果、结论和影响。 国际预测杂志,16 (4), 451-476。

里德,DJ (1968)。结合国内生产总值的三个估计值。经济, 431-444。

Makridakis, S.、Spiliotis, E. 和 Assimakopoulos, V. (2018)。M4 竞赛:结果、发现、结论和前进方向。国际预测杂志。

Arthur (1994)有一篇不错的简短论文/思想实验,在复杂性文献中广为人知。

其中一个结论是,代理在非平衡条件下无法选择更好的预测模型(即使他们有这些模型的“森林”)。例如,如果将问题应用于股票市场表现,则 Arthur (1994) 的设置可能适用。