我最近一直在从事一些预测工作,并且重新发现了一个众所周知的事实:不同预测的组合通常比预测本身更好。特别是,预测的未加权平均值通常优于任何平均预测。到目前为止,在我自己的工作中,除了数据是从简单模型人为生成的情况外,我还没有遇到任何例外。
我曾经并且仍然对此感到震惊。为什么基于完全不一致的假设的平均模型会产生任何无意义的东西?为什么具有相对较差模型的最佳模型的未加权平均值通常优于最佳模型?为什么我们似乎从未加权的平均值中获得了复杂集成方法的大部分好处?
我一直认为建模过程旨在找到最接近潜在现实的模型,当然,不完美,但仍然假设在指定的简约性、数据可用性等约束条件下始终存在最佳模型。对我来说,或多或少任意模型类型集合的未加权平均值(经验告诉我们非常好)这一事实并不表明真正的模型大致是组成模型的平均值——即将是荒谬的。
相反,它表明没有真正的数据生成过程可以通过任何标准估计技术来近似,无论多么复杂。数据可以生成为许多、许多代理或子过程的某种复杂的总和或复合,其中的每一个或谁体现了一个独特的因果力复合体,可能包括多层非线性反馈。也许他们受到了作为建模者永远不会看到的常见力量的影响或夹带,例如老板的情绪或空气中的电离水平或持续存在并仍然影响决策的历史制度结构的非理性残余。
您也可以通过其他方式看到这一点。例如,有时该理论对于哪些模型是首选模型是完全明确的。例如,完全清楚的是,大多数由 VAR 或 VECM 建模的宏观经济变量应出于多种令人信服的原因进行记录或对数差分,包括统计(即避免异方差性,使任何存在的趋势线性化)和经济。除非您实际运行此类模型,否则情况正好相反。我不知道为什么。
我的问题是这个。有没有人找到一种方法来正式相信我们努力理解的过程没有我们可以在标准数学模型中捕获的数据生成过程?有没有人试图根据这种形式化描述统计的基础——所有模型都不可避免地被错误指定的统计? 如果是这样,它是否对假设检验有任何已知的影响,以及构成统计学家或数据科学家正常工作流程的那种测试和重新设计过程?我们是否应该在分析过程中更早地增加模型?如果是这样,怎么做?我们是否应该根据某些原则来选择要聚合的模型,而不是基于复杂性惩罚的拟合质量,还是像 AIC 这样的模型比较测试?由于事物最终被设计为输入到集成中,我们是否应该优先考虑给出不同预测的模型,而不是好的预测?有没有一种原则性的方法来进行这种权衡?
如果这是规范,为什么我在撰写这篇文章时所阅读的六篇广泛使用的介绍性统计文本中没有任何一篇?