如果没有真正的数据生成过程怎么办?

机器算法验证 模型选择 aic 模型比较 集成学习 数据生成过程
2022-02-27 18:06:52

我最近一直在从事一些预测工作,并且重新发现了一个众所周知的事实:不同预测的组合通常比预测本身更好。特别是,预测的未加权平均值通常优于任何平均预测。到目前为止,在我自己的工作中,除了数据是从简单模型人为生成的情况外,我还没有遇到任何例外。

我曾经并且仍然对此感到震惊。为什么基于完全不一致的假设的平均模型会产生任何无意义的东西?为什么具有相对较差模型的最佳模型的未加权平均值通常优于最佳模型?为什么我们似乎从未加权的平均值中获得了复杂集成方法的大部分好处?

我一直认为建模过程旨在找到最接近潜在现实的模型,当然,不完美,但仍然假设在指定的简约性、数据可用性等约束条件下始终存在最佳模型。对我来说,或多或少任意模型类型集合的未加权平均值(经验告诉我们非常好)这一事实并不表明真正的模型大致是组成模型的平均值——即将是荒谬的。

相反,它表明没有真正的数据生成过程可以通过任何标准估计技术来近似,无论多么复杂。数据可以生成为许多、许多代理或子过程的某种复杂的总和或复合,其中的每一个或谁体现了一个独特的因果力复合体,可能包括多层非线性反馈。也许他们受到了作为建模者永远不会看到的常见力量的影响或夹带,例如老板的情绪或空气中的电离水平或持续存在并仍然影响决策的历史制度结构的非理性残余。

您也可以通过其他方式看到这一点。例如,有时该理论对于哪些模型是首选模型是完全明确的。例如,完全清楚的是,大多数由 VAR 或 VECM 建模的宏观经济变量应出于多种令人信服的原因进行记录或对数差分,包括统计(即避免异方差性,使任何存在的趋势线性化)和经济。除非您实际运行此类模型,否则情况正好相反。我不知道为什么。

我的问题是这个。有没有人找到一种方法来正式相信我们努力理解的过程没有我们可以在标准数学模型中捕获的数据生成过程?有没有人试图根据这种形式化描述统计的基础——所有模型都不可避免地被错误指定的统计? 如果是这样,它是否对假设检验有任何已知的影响,以及构成统计学家或数据科学家正常工作流程的那种测试和重新设计过程?我们是否应该在分析过程中更早地增加模型?如果是这样,怎么做?我们是否应该根据某些原则来选择要聚合的模型,而不是基于复杂性惩罚的拟合质量,还是像 AIC 这样的模型比较测试?由于事物最终被设计为输入到集成中,我们是否应该优先考虑给出不同预测的模型,而不是好的预测?有没有一种原则性的方法来进行这种权衡?

如果这是规范,为什么我在撰写这篇文章时所阅读的六篇广泛使用的介绍性统计文本中没有任何一篇?

2个回答

您是否听说过“所有模型都是错误的,但有些是有用的”的报价?这是统计学中最著名的名言之一。

让我们以人类语言为例。你所说的,是许多并行和并行过程的结果。它受语言规则、语言流利程度、教育背景、一生中读过的书、文化因素、语境、谈话对象、当前影响你的心理和生理因素的影响说话,还有很多很多的事情,你可能会引用或错误引用过去受他们影响的人等等。没有“生成”从你嘴里说出来的话的功能、过程或分布.

播放 Advocatus Diaboli,现在想想预测天气。这很难,因为天气会受到许多相互作用因素的影响。天气是一个混沌系统。但也许整个系统可以被认为是一个生成天气的过程?

这是一场哲学讨论。这也是一个不必要的,至少形成一个实际的观点。我们真的不需要相信有一个分布或过程可以生成我们的数据。这是一个数学抽象。如果不为建模的事物引入一些抽象的数学对象,我们将无法谈论估计量的统计特性,例如偏差和方差(仅举一个例子)。我们在用数学函数来逼近一个东西,这个东西也需要被认为是一个函数,所以它可以用数学术语来讨论。我们并不是说存在一个为我们“生成”数据的过程,我们只是用一个抽象的概念来谈论它。

所以是的,啤酒模型指定错误,错误。它们只是近似值。他们近似的“事物”只是抽象概念。如果你真的想一路走到兔子洞,没有声音,没有颜色,没有风,没有树,也没有我们。我们只是被其他粒子包围的粒子,我们为在特定时刻彼此靠近的粒子组赋予了一些含义,但这些东西存在吗?也许我们应该建立现实的粒子级模型?下面是一个相关的 xkcd。

从社会学开始到数学结束的纯洁性排列的领域。 请参阅 https://explainxkcd.com/wiki/index.php/435:_Purity 以获得成绩单和解释。

反过来看,如果没有真正的数据生成过程,数据是如何生成的?

标准估计技术无法准确近似真实的数据生成过程并不意味着数据生成过程不存在,它只是意味着我们没有足够的数据来确定模型的参数(或更多通常是模型的正确形式)。

但是,当我们制作模型时,我们的目标并不是准确捕捉真实的数据生成过程,而只是对真实数据生成过程(TDGP)的重要特征进行简化表示或抽象,以便我们可以用来理解 TDGP或者预测/预测它在我们没有直接观察到的某些情况下的表现。我们的大脑非常有限,我们无法理解 TDGP 的细节,所以我们需要抽象和简化模型来最大化我们能够理解的内容。

与其说没有 TDGP,不如说没有“随机性”这样的东西(也许在量子水平上除外,但即便如此也可能不是随机的,尽管贝尔实验表明它可能是随机的)。我们使用“随机”的概念来解释由于缺乏信息而无法预测的确定性系统的结果。因此,统计模型的目的是表达我们对确定性系统的有限知识状态。例如,抛硬币不是随机的,它是正面还是反面只是物理学,取决于硬币的性质和施加在它上面的力。它似乎只是随机的,因为我们对这些属性或力没有充分的了解。

归根结底,我们拥有的数据越多,原则上我们可以从中提取的信息就越多(收益递减),我们对 TDGP 的知识状态就越好。

平均帮助的原因是模型的误差由偏差和方差组成,参见@Tim 的答案 (+1)。如果我们没有太多数据,则方差分量会很高,但是对于在不同样本上训练的模型,该方差不会是一致的,因此在对模型预测进行平均时会部分抵消。这并没有告诉您有关 TDGP 的任何信息,而是告诉您有关模型参数的估计(如果可以的话,您应该获得更多数据)。