计量经济学与其他统计领域之间的主要哲学、方法和术语差异是什么?

机器算法验证 计量经济学 术语 哲学的
2022-01-21 00:32:47

计量经济学与传统统计学有大量重叠,但经常使用自己的术语来描述各种主题(“识别”、“外生”等)。我曾经听到另一个领域的应用统计学教授评论说,术语经常不同,但概念是相同的。然而,它也有自己的方法和哲学区别(赫克曼的著名论文浮现在脑海中)。

计量经济学和主流统计之间存在哪些术语差异,以及这些领域在哪些方面出现了分歧而不仅仅是术语上的差异?

4个回答

存在一些术语差异,相同的事物在不同学科中被称为不同的名称:

  1. 生物统计学中的纵向数据是对同一个人的重复观察=计量经济学中的面板数据。
  2. 将 1 的概率建模为的二元因变量模型在计量经济学中称为 Logit 模型,在生物统计学中称为 Logit 模型。生物统计学家倾向于根据优势比使用逻辑回归,因为它们的 s 通常是二元的,因此优势比代表人口中两组感兴趣的结果的相对频率。这是一种常见的解释,您经常会看到将连续变量转换为两类(低血压与高血压),以使这种解释更容易。1/(1+exp[xβ])x
  3. 统计学家的“估计方程”是计量经济学家的“矩条件”。统计学家的估计是计量经济学家的极值估计。M

在不同学科中使用相同的术语来表示不同的事物时,存在术语差异:

  1. 固定效应代表方差分析统计学家回归方程中(对于计量经济学家来说,随机效应永远是诅咒的。)xβ
  2. 稳健的推断意味着经济学家的异方差校正标准误(扩展了聚类标准误和/或自相关校正的标准误)以及对统计学家的远异常值稳健的方法。
  3. 经济学家似乎有一个荒谬的想法,即分层样本是那些在观察之间选择概率不同的样本。这些应该称为不等概率样本。分层样本是根据在抽样之前已知的特征将总体划分为预定义组的样本。
  4. 计量经济学家的“数据挖掘”(至少在 1980 年代的文献中)过去意味着多重测试和与之相关的陷阱,这些在Harrell 的书中得到了精彩的解释。计算机科学家(和统计学家)的数据挖掘程序是在数据中寻找模式的非参数方法,也称为统计学习
  5. Horvitz-Thompson 估计量是抽样统计中有限总体总数的非参数估计量,它依赖于固定的选择概率,方差由二阶选择概率确定。在计量经济学中,它已经发展为表示依赖于标准因果推理假设(条件独立、SUTVA、重叠,所有这些使鲁宾的反事实有效的东西)的适度长列表的逆倾向加权估计量。是的,两者的分母都有某种概率,但是在一种情况下理解估计量会使你理解另一种情况的能力为零。

我认为计量经济学的独特贡献是

  1. 处理内生性和指定不明确的回归模型的方法,正如 mpiktas在另一个答案中解释的那样,(i)解释变量本身可能是随机的(因此与回归误差相关,从而在参数估计中产生偏差),(ii)模型可能会受到遗漏变量的影响(然后成为误差项的一部分),(iii)经济主体对刺激的反应可能存在未观察到的异质性,从而使标准回归模型复杂化。Angrist & Pischke是对这些问题的精彩回顾,统计学家将从中学到很多关于如何进行回归分析的知识。至少,统计学家应该学习和理解工具变量回归。
  2. 更一般地说,经济学家希望对他们的模型做出尽可能少的假设,以确保他们的发现不会依赖于像多元正态性这样荒谬的东西。这就是为什么 GMM 和经验似然在经济学家中非常流行,并且从未在统计中赶上(GMM 最初被 Ferguson 描述为最小值,而著名统计学家 Jon Rao 在 1960 年代后期将 GMM 描述为最小 $\chi^2$) )。这就是为什么经济学家使用“稳健”标准误进行回归,而统计学家使用默认 OLS标准误进行回归。χ2s2(XX)1
  3. 在时间域中进行了大量工作,具有规则间隔的过程——这就是收集宏观经济数据的方式。独特的贡献包括集成和协整过程以及自回归条件异方差 ((G)ARCH) 方法。作为一般的微观人,我对这些不太熟悉。

总体而言,经济学家倾向于在他们的模型中寻找对系数的有力解释。统计学家会将逻辑模型作为获得阳性结果概率的一种方法,通常作为一种简单的预测工具,并且可能会注意到 GLM 解释具有良好的指数族属性,以及与判别分析的联系。经济学家会考虑 logit 模型的效用解释,并担心在该模型中,并且异方差性可能会将其排除在外。(统计学家会想知道什么β/σσ当然,是经济学家在谈论。)当然,从微观经济学 101 的角度来看,输入呈线性的效用是一件非常有趣的事情,尽管在 Mas-Collel 中可能对半凹函数进行了一些推广。

经济学家通常倾向于错过,但恕我直言,会从中受益的是多元分析的各个方面(包括潜在变量模型作为处理测量误差和多重代理的一种方式......不过,统计学家也忽略了这些模型) ,回归诊断(所有这些 Cook 距离,Mallows 的Cp, DFBETA 等),缺失数据分析(Manski 的部分识别肯定花哨,但主流的 MCAR/MAR/NMAR 分解和多重插补比较有用),调查统计。来自主流统计学的许多其他贡献已经被计量经济学所接受,或者作为一种标准方法被采用,或者作为一种短期时尚被传递:1960 年代的 ARMA 模型在计量经济学中可能比在统计学中更为人所知,因为一些研究生课程这些天,统计学可能无法提供时间序列课程;1970 年代的收缩估计器/岭回归来了又去;1980 年代的 bootstrap 是对任何复杂情况的下意识反应,尽管经济学家需要更好地意识到bootstrap 的局限性; 在 1990 年代的经验可能性中,理论计量经济学家比理论统计学家更多地发展了方法论;2000 年代的计算贝叶斯方法正在计量经济学中得到应用,但我的感觉是它过于参数化,过于基于模型,无法与我之前提到的稳健性范式兼容。(编辑:这是 2012 年现场的观点;到 2020 年,贝叶斯模型已成为实证宏观的标准,人们可能不太关心稳健性,并且在实证微观中也能听到他们的存在。他们只是这些天太容易跑过去了。)经济学家是否会发现在现代统计学中非常热门的统计学习/生物信息学或时空数据的任何用途是公开的。

最好用线性回归来解释,因为它是计量经济学的主要工具。在线性回归中,我们有一个模型:

Y=Xβ+ε

其他统计领域和计量经济学的主要区别在于$X$在其他领域被视为固定变量,而在计量经济学中被视为随机变量。您必须为调整这种差异而格外小心,这会产生不同的行话和不同的方法。一般来说,您可以说计量经济学中使用的所有方法与其他统计领域中使用的方法相同,并针对解释变量的随机性进行了调整。值得注意的例外是GMM,它是独特的计量经济学工具。X is treated as fixed in other fields and is treated as random variable in econometrics. The extra care you have to use to adjust for this difference produces different jargon and different methods. In general you can say that all the methods used in econometrics are the same methods as in other statistics fields with adjustment for the randomness of explanatory variables. The notable exception is

另一种看待差异的方式是,可以将其他统计字段中的数据视为 iid 样本。在计量经济学中,很多情况下的数据是随机过程的样本,其中 iid 只是一个特例。因此又是不同的行话。

了解以上内容通常足以轻松地从其他统计领域跳到计量经济学。由于通常给出模型,因此不难弄清楚什么是什么。在我个人看来,机器学习和经典统计学之间的术语差异比计量经济学和经典统计学之间的区别要大得多。

请注意,有些术语在没有计量经济学的情况下在统计中具有复杂的含义。主要的例子是固定效应和随机效应。关于这些术语的维基百科文章一团糟,将计量经济学与统计数据混为一谈。

一个微妙的区别是经济学家有时将意义赋予模型中的误差项。在“结构”经济学家中尤其如此,他们认为您可以估计代表兴趣或个人异质性的结构参数。

一个典型的例子是概率。虽然统计学家通常不知道导致误差项的原因,但经济学家经常将回归中的误差项视为代表偏好的异质性。对于概率案例,您可以模拟女性加入劳动力的决定。这将由多种变量决定,但误差项将代表一个未被观察到的程度,个人对工作的偏好可能会有所不同。

当然,任何宽泛的陈述都必然过于宽泛。但我的经验是,计量经济学关注因果关系,而统计学对预测更感兴趣。

在经济学方面,你无法避免“可信度革命”文献(主要是无害的计量经济学等)。经济学家关注某些治疗对某些结果的影响,着眼于政策评估和建议。

在统计方面,您会看到数据挖掘/机器学习的兴起,其中在线分析和遗传学的应用是值得注意的例子。在这里,研究人员更感兴趣的是预测行为或关系,而不是精确地解释它们;他们寻找模式,而不是原因。

我还要提到,统计学家传统上对实验设计更感兴趣,这可以追溯到 1930 年代的农业实验。