何时使用多个模型进行预测?

机器算法验证 时间序列 造型 模型比较
2022-03-08 01:51:38

这是一个相当普遍的问题:

我通常发现,在尝试预测样本外的时间序列时,使用多个不同的模型优于一个模型。有没有好的论文可以证明模型的组合会优于单个模型?结合多个模型是否有任何最佳实践?

一些参考资料:

4个回答

在我看来,NetFlix 奖竞赛的最后一年(2009 年)已经彻底改变了社区范围内反对结合多种学习算法的普遍假设。

例如,我的正式培训(大学课程)和后来的在职监督/指导教会我们避免算法组合,除非我们有明确的理由这样做——并且“提高我当前算法的分辨率”,不是t 真的被认为是一个很好的理由。(其他人可能有不同的经历——当然,我只是根据我自己的经验来推断整个社区的观点,尽管我在编写性能不佳的 ML 算法方面的经验非常丰富。)

尽管如此,仍有一些“模式”以一种或另一种方式组合算法被接受,并且实际上提高了性能。对我来说,最常见的例子涉及在机器模式下配置的一些 ML 算法(为每个数据点分配一个类标签),其中有两个以上的类(通常更多)。例如,当使用监督学习算法来解决四个类别时,我们会看到很好的分离,除了让我们说 III 类和 IV 类。因此,在这六个决策边界中,只有一个低于所需阈值。特别是当 III 类和 IV 类一起占数据的一小部分时,添加一个仅针对这两个类的分辨率优化的附加算法,是这种分析问题类型的相当常见的解决方案。(通常,“盲点”是主要算法的固有限制——例如,它是一个线性分类器,而 III/IV 决策边界是非线性的。

换句话说,当我们有一个适合处理环境(通常是流数据)并且在规范内执行的可靠算法时,除了一个盲点导致它无法解析两个(或更多)类数据的一小部分,那么最好“附加”另一个专门的算法来捕捉主要算法系统缺失的内容。

最后,关于这个话题,我想强烈推荐第 17 章,组合多个学习者机器学习简介,2d,Ethem Alpaydin,麻省理工学院出版社,2010 年。请注意,这是几个月前发布的第二版;第一版于 2004 年出版,我怀疑它对这个主题的覆盖面相同。(实际上我推荐整个文本,但特别是那一章,因为它与 Shane 的问题有关。)

在 25 页中,作者可能总结了每一种 ML 算法组合方案,其实用性已在学术文献或实践中得到证明——例如 bagging、boosting、专家混合、堆叠泛化、级联、投票、纠错等。 ..

有时这种模型被称为集成。例如,这个页面很好地概述了它是如何工作的。那里提到的参考资料也非常有用。

跟进彼得对集成方法的回应:

这是一个稍微偏离左侧的答案,它只涉及您问题的“结合多个模型的最佳实践”部分。这基本上正是我的荣誉论文,除了我正在处理复杂的、高度非线性的模型,这些模型表现出混乱和噪音——气候模型。这不太可能广泛适用于许多领域,但可能对生态学或计量经济学有用。

直到最近,在气候建模界,模型在很大程度上只是以未加权的平均值组合在一起(通常是在涉及去除部分或全部样本期间的模型平均值的偏差校正之后)。这基本上是 IPCC 为第四次评估报告 (4AR) 和以前的报告所做的。

这或多或少是“真值加误差”集合组合学派的一个例子,其中默认或明确假设观测系列(例如全球温度、局部降水等)是正确的,并且如果你采集了足够的样本(例如模型运行),模型运行中的噪声将消除(参见(1))。

最近,已经使用了基于性能加权的模型组合方法。因为气候模型非常嘈杂,并且具有如此多的变量和参数,所以评估性能(据我所知)的唯一方法是采用协方差,或者采用模型输出和观察到的时间序列之间的 MSE。然后可以通过基于该度量对平均值进行加权来组合模型。在 (2) 中有一个很好的概述。

这种组合模拟的方法背后的一个假设是假设模型都是合理独立的——如果有些模型高度依赖,它们会使平均值产生偏差。这个假设对于用于 4AR(CMIP3 )的数据集来说是相当公平的,因为这个数据集是由来自许多建模组的少数模型运行组成的(另一方面,代码在建模社区中共享,因此可能仍然存在一些相互依赖关系. 对于这个有趣的看法,请参阅 (3)). 下一个评估报告的数据集,CMIP5,没有这个有点偶然的属性 - 一些建模团队将提交几个运行,而一些将提交数百个。来自不同团队的集合可能是由初始条件扰动产生的,或者是由模型物理和参数化的变化产生的。此外,这个超级集合没有以任何系统的方式进行采样——它只是接受曾经带来数据的人(在合理范围内)。这在该领域被称为“机会集合”。在这样的集合上使用未加权平均值很有可能会让您对运行次数更多的模型产生一些重大偏见(因为即使有数百次运行,真正独立运行的数量可能要少得多)。

我的主管目前正在审查一篇论文,其中描述了涉及性能和独立权重的模型组合过程。有一个会议论文摘要可用(4),我会在论文发表时发布论文的链接(过程缓慢,不要屏住呼吸)。基本上,本文描述了一个过程,该过程涉及获取模型误差的协方差(model-obs),并加权与所有其他模型具有高协方差的模型(即具有高度相关误差的模型)。模型误差方差也被计算出来,并用作性能加权分量。

还值得注意的是,气候建模显然受到一般数值建模的变幻莫测的巨大影响。有一种叫做“笑测试”的东西——如果你最终的模型运行暗示到 2050 年全球平均温度将达到 +20°C,你就把它扔掉,因为它显然与物理无关。显然,这种测试是相当主观的。我还没有要求它,但我希望在不久的将来。

这就是我目前对我所在领域的状态模型组合的理解。显然我还在学习,所以如果我遇到任何特别的事情,我会回来更新这个答案。

(1) Tebaldi, C. & Knutti, R., 2007。在概率气候预测中使用多模式集合。皇家学会哲学汇刊 A:数学、物理和工程科学,365(1857),第 2053-2075 页。

(2) Knutti, R. 等人,2010 年。IPCC 评估和组合多模式气候预测专家会议。

(3) Masson, D. & Knutti, R.,2011 年。气候模型谱系学。地球物理学。水库。莱特,38(8),p.L08703。

(4) Abramowitz, G. & Bishop, C.,2010。定义和加权集合预测中的模型依赖性。在 AGU 秋季会议摘要中。页。07.