什么是“真正的”模型?

机器算法验证 回归 模型
2022-03-21 17:13:13

一个简短的问题,但我无法找到任何具体的答案。我想这意味着模型尽可能好?包含所有相关变量,因此不会遭受任何偏差,例如遗漏变量偏差?我特别指的是线性回归模型。

4个回答

不,真正的模型是数据生成模型/过程,只有在您事先假设基础模型(例如模拟或理论模型)时才知道事前。如果你只观察数据,你不知道真正的模型是什么。你试图找到一个能最好地解释数据的模型,但这并不意味着它就是真正的模型。

事实上,即使真实模型和假设模型不同,您也有可能找到与真实模型一样“适合”的模型(如果您知道的话)。例如,当您隐藏了您不知道但从未见过的变量时,就会发生这种情况。从中得出推断几乎是不可能的。

在回归上下文中,您有变量,并且您正在寻求以第二个元素为条件来描述第一个元素的行为。该模型在给定的一类可能的条件分布,而真正的模型是真正的条件分布。在我看来,最好避免将其等同于“数据生成过程”,因为这是一个额外的因果假设,并且它带来了大量无法证明的强有力的断言(例如,概率是一种嵌入的形而上学自然属性,而不仅仅是推理的认识论工具)。(yi,xi)yixi

假设您接受“真实模型”是真实条件分布的同义词的观点。如果可能的话,能够对此赋予操作意义(即,以可观察数据为框架的意义)仍然很好。为此,假设您愿意假设您有一组可能无限的可观察数据,表现为无限序列(在给定的问题中,您只会观察到有限数量的数据,但我们的假设是理论上我们可以收集的数据量没有有限限制。)定义极限经验分布函数通过:R{(yi,xi):iN} F:Rm+1[0,1]

F(y,x)limn1ni=1nI(yiy,xix)for all yR and xRm.

如果序列是可交换的,那么根据大数定律几乎肯定等于真实分布(即,我们有 )。这意味着从序列的有限经验分布中得出的条件分布是给定的真实条件分布——这为“真实模型”赋予了操作意义。RFFP(F=F)=1yixi

你是对的。很难找到一个好的讨论这个问题。我的想法:“真实”模型不是数据实际生成方式的模型,而是一个假设的“生成模型”,它生成分布为 P(Y|X) 的数据,其中 X 是统计模型中的自变量, 并且满足 Gauss-Markov(参见 Wikipedia),因此误差(不是残差!)是独立同分布且均值为零。省略的变量与这些条件无关。从字面上看,无限数量的生成模型(具有不同的因果因素组合)可以生成具有相同 P(Y|X) 的数据。省略的变量偏差与统计教科书中描述的统计建模方式完全无关。其中一些在格尔曼和希尔。另一个很好的来源是 Shalizi 的教科书草稿(均可在 Google 上搜索)。

在我看来,Gkhan Cebs 的立场是正确的,真实模型和数据生成过程/模型是同义词。

JWalker 的立场很奇怪,因为它支持真实模型的含义仅存在于联合概率分布中,但这一立场在珀尔的论文中恰恰相反,他引用了“Trygve Haavelmo 和因果微积分的出现”。老实说,Pearl 从不谈论“真实模型”而只谈论“数据生成机制”,但 JWalker 引用该论文作为真实模型含义的裁判。原因只能是他认为真正的模型和数据生成过程是同义词,我似乎是对的,但这一事实与 JWalker 的答案相矛盾。

然而 JWalker 和 RJAL 有权说“真正的模型”的含义是很难找到然后理解的。在计量经济学教科书中,“真实模型”的含义被跳过和/或不清楚。有时说它具有理论/因果意义,有时只是统计意义,有时什么也没说。这似乎几乎是一个谜。这个事实产生了很大的混乱。

也许在某些统计文本中,可以使用诸如“真实模型”之类的东西而没有结构意义。但是我认为对计量经济学中真实模型的正确解释是:结构线性因果方程喜欢这里:线性因果模型

这些讨论密切相关:

计量经济学中的回归和因果关系

在回归分析中,数据生成过程和模型有什么区别?