回归模型的定义和界定

机器算法验证 回归 术语 模型 定义
2022-01-30 20:34:45

一个令人尴尬的简单问题——但似乎之前没有在 Cross Validated 上问过这个问题:

  1. 回归模型的定义是什么?

还有一个支持问题,

  1. 什么不是回归模型?

关于后者,我对答案不是很明显的棘手示例感兴趣,例如 ARIMA 或 GARCH。

4个回答

我会说“回归模型”是一种元概念,在某种意义上你不会找到“回归模型”的定义,而是更具体的概念,例如“线性回归”,“非线性回归”, “稳健回归”等。这与数学中的方式相同,我们通常不定义“数字”,而是定义“自然数”、“整数”、“实数”、“p-adic 数”等等,如果有人想要包括数字中的四元数就这样吧!这并不重要,重要的是您目前正在阅读的书/论文使用了什么定义。

定义是工具,而本质主义,即讨论……的本质是什么,一个词的真正含义是什么,很少值得。

那么,“回归模型”与其他类型的统计模型有何区别?大多数情况下,有一个响应变量,您希望将其建模为受某些预测变量集的影响(或确定) 。我们对影响另一个方向不感兴趣,我们对预测变量之间的关系不感兴趣。大多数情况下,我们将预测变量视为给定的,并将它们视为模型中的常数,而不是随机变量。

上面提到的关系可以是线性的或非线性的,以参数或非参数的方式指定,等等。

为了区别于其他模型,当我们接受预测变量中存在测量误差的可能性时,我们最好看一下通常用来表示“回归模型”的不同事物的其他词,例如“变量中的错误”。这很可能包含在我上面对“回归模型”的描述中,但通常被视为替代模型。

此外,不同领域的含义可能会有所不同,请参阅调节回归变量与将它们视为固定变量之间的区别是什么?

重复一遍:重要的是您现在正在阅读的作者使用的定义,而不是关于它“真正是什么”的一些形而上学。

已经给出了两个很好的答案,但我想加两分钱。

在回归案例中,我们有一些随机变量变量有一些未知的分布和复杂的协方差结构。我们将这个问题简化为只关注条件分布,或者更准确地说,在给定其他变量的我们将其简化为YX1,,XkY

μ=E(y|x1,,xk)=f(x1,,xk)

其中是根据特定回归模型可以采用不同形式(线性、非线性)的预测变量的函数,而当根据广义线性模型是某些分布的平均值在 GLM 中可以是泊松、二项式、伽马等分布的位置。对于正则化回归,它是拉普拉斯分布的一个位置,对于最小化Huber 损失的稳健模型,使用所谓的 Huber 密度。在四分位数回归的情况下,我们关注分布的其他特征,我们估计是分布的四分位数,而不是期望值。fμμL1μ

因此,我们不关注完全联合分布,而是关注的条件分布。这种简化是回归模型的一个关键特征。Y

基于文献的一些想法:

F. Hayashi 在他的经典研究生教科书“计量经济学”(2000 年)的第 1 章中指出,以下假设构成了经典线性回归模型:

  1. 线性度
  2. 严格的外生性
  3. 没有多重共线性
  4. 球面误差方差
  5. “固定”回归量

Wooldridge 在其经典的计量经济学入门教科书“计量经济学入门:现代方法”(2012 年)的第 2 章中指出,以下等式定义了简单的线性回归模型:

y=β0+β1x+u.

格林在他流行的计量经济学教科书“计量经济学分析”(2011 年)的第 2 章中指出

经典的线性回归模型一组假设组成,这些假设关于一个数据集将如何由一个潜在的“数据生成过程”产生。

随后给出了一系列与 Hayashi 的假设相似的假设。

关于 OP 对 GARCH 模型的兴趣,Bollerslev “Generalized autoregressive conditional heterosedasticity”(1986)在第 5 节的标题和该节的第一句中包含了一个短语“GARCH 回归模型”。所以 GARCH 模型之父并不介意将 GARCH 称为回归模型。

回归模型的定义和界定

过去,我也分享了您对这一点的困惑。你指的是计量经济学文献,我也主要指的是那个。不幸的是,大多数计量经济学书籍并没有太大帮助。然而,我获得了一个更清晰的观点,似乎我是一致的。

回归模型的定义是什么?

在我看来,回归的正确定义是条件期望函数(CEF)的同义词;这个定义来自统计文献。因此我们可以意识到这一切都取决于所涉及的随机变量的联合分布。回归是D(y,X)

E[y|X]=g(X)

最终我们可以用错误形式表示回归

y=E[y|X]+ϵ

阅读此处了解更多信息:回归和 CEF

经常有人说线性回归(模型),这确实是计量经济学的王者。但是从前面的定义我们可以意识到线性回归是的一个明确的规范。此外,有可能证明著名的平均独立性假设的真正含义是对的限制;它意味着 CEF 的线性度。g(X) E[ϵ|X]=0D(y,X)

在这里我们已经可以意识到,假设回归的线性和他的错误的平均独立性都是多余的。更糟糕的是,大多数计量经济学书籍都谈论外生性假设而不是平均独立性假设,并将其归因于一个关键但截然不同的含义;意味着不能归因于回归。的形式给出,在所有回归中构造总是正确的!这一事实无疑揭示了矛盾。您在回复中引用的两本书(Richard Hardy),Wooldridge 2012 和 Greene(2011),都在其中。E[ϵX]=0

问题的核心围绕着统计和因果概念之间的混淆。事实上,外生性是或应该是一个因果概念,而不是关于回归的假设。

什么不是回归模型?

结构方程不是回归方程(模型)这两个概念之间的混淆似乎是计量经济学文献中问题的根源。事实上,当计量经济学作者谈论外生性(以任何形式定义)时,脑海中会想到结构方程而不是回归方程。这些我的答复深入探讨了这一点:

计量经济学家将如何回答 Chen 和 Pearl (2013) 提出的反对意见和建议?

在哪些假设下可以因果解释回归?

最小化预测误差与参数估计误差之间的关系是什么?

此外,其他合并是回归的含义,旨在作为他的估计器(主要是 OLS 估计器)的理论数量和属性。例如,“无多重共线性”假设经常被认为是 OLS 估计量唯一性的必要条件,它是一种代数条件,处理手头的数据,很少与所涉及的随机变量的统计特性共享。

最后,以上所有都说(也)我不建议将“回归”一词用作 kjetil b halvorsen 所建议的意义上的元概念;事实上,我担心回归和结构方程之间的混淆来自于此。确实,条件分位数函数之类的概念可能很有趣,但将其称为分位数回归是(广泛)不好的习惯。此外,像 GARCH 这样的模型与回归模型不同的Skedastic 函数的概念有很多共同之处。关于像 ARIMA 这样的模型,我说过:AR 子案例肯定是回归;ARMA 是包含不可观察项的回归;ARIMA 看起来像回归,但使用集成系列会带来临时统计问题。