据我了解,计量经济学估计部分(其他条件不变)相关性的目的是主要估计因果关系。为此,它通常使用可用的整个数据集。计量经济学可以是参数的和非参数的。
同时,机器学习对因果关系不感兴趣,而是对“拟合”感兴趣,主要是为了产生预测。为此,它通常在训练集和预测集之间拆分数据集。机器学习也可以是参数的和非参数的。
这就是我对这两个学科核心的理解,但我相信还有很多。我主要对他们的差异感兴趣。任何人都可以提供一个很好的指导吗?
据我了解,计量经济学估计部分(其他条件不变)相关性的目的是主要估计因果关系。为此,它通常使用可用的整个数据集。计量经济学可以是参数的和非参数的。
同时,机器学习对因果关系不感兴趣,而是对“拟合”感兴趣,主要是为了产生预测。为此,它通常在训练集和预测集之间拆分数据集。机器学习也可以是参数的和非参数的。
这就是我对这两个学科核心的理解,但我相信还有很多。我主要对他们的差异感兴趣。任何人都可以提供一个很好的指导吗?
第一件事。我所说的一切都只是我的理解。因此,像往常一样,我可能是错的。
亨利部分正确。但计量经济学也是一系列方法。根据手头的研究问题以及提供的数据(横截面与面板数据等),可以应用多种不同的计量经济学方法。
在我的理解中,机器学习是一组方法,使机器能够从过去的观察中学习模式(通常以黑盒方式)。回归是计量经济学和机器学习中的标准工具,因为它允许学习变量之间的关系并将这些关系外推到未来。
并非所有计量经济学家都对参数估计的因果解释感兴趣(如果使用观察数据(非实验性),他们很少能声称因果解释)。通常,就像时间序列数据一样,计量经济学家也只关心预测性能。
本质上两者都是相同的东西,但在不同的子领域中发展(机器学习植根于计算机科学)。它们都是方法的集合。计量经济学家也越来越多地使用决策树和神经网络等机器学习方法。
你已经触及了一个非常有趣的点:因果关系。本质上,这两个领域都想知道真正的潜在关系,但正如您已经提到的,预测性能通常是机器学习任务中使用的主要 KPI。也就是说,具有低泛化误差是主要目标。当然,如果你知道真正的因果关系,这应该是所有可能的公式中泛化误差最低的。现实非常复杂,没有自由的预感。因此,大多数时候我们对底层系统只有部分了解,有时甚至无法衡量最重要的影响。但是我们可以使用与我们想要测量的真实基础变量相关的代理变量。
长话短说,非常肤浅:这两个领域是相关的,而计量经济学家最感兴趣的是找到真正的因果关系(即检验一些假设),而机器学习则植根于计算机科学,并且最感兴趣的是构建具有低泛化错误。
PS:通常也应避免仅使用计量经济学中的整个数据集。计量经济学家越来越意识到,在样本中发现的关系不一定适用于新数据。因此,计量经济学研究的复制一直是非常重要的。
希望这对您有所帮助。
除了@JustMe 之外的一些注意事项:
首先,计量经济学和机器学习的两边都有很多傲慢。讨论这两者中的哪一个可能是其子学科是徒劳的。事实上,它们都是统计学领域(最好将其描述为应用数学)的两个高度重叠的子学科。两者都有自己的重点和偏好,例如,计量经济学侧重于估计和检验假设,通常在较小的样本中,而 ML 侧重于最佳函数近似,通常在大样本中。第一个侧重于进行分布假设的参数方法,第二个更经常(但迄今为止不完全)侧重于非参数无分布方法。等等。
其次,如果目标是预测,则无需了解因果关系,只要有来自同一群体的随机样本即可。然而,如果我们想了解一个系统(即理论开发/测试)或改变它(即通过干预根据理论采取行动),那么了解因果关系是最重要的。这种类型的研究目标在计量经济学(以及其他领域,如生物统计学)中比在机器学习中更为常见。
然而,也有机器学习研究人员对因果关系感兴趣。这里的领域之间的主要区别再次是,计量经济学家对干预措施有假设并试图估计其影响(例如,使用来自因果推理理论的技术,如加权、匹配或选择模型,从观察数据或实验数据),而机器学习会而是尝试从数据中学习因果关系(例如,在有向非循环因果图中使用搜索算法),而不那么关注单一干预。
我认为可以更加强调的是,计量经济学模型通常假设所选模型实际上是真实模型,从某种意义上说,该模型等同于数据生成过程(DGP)。这对于推导出强大的分布结果是必要的,以便进行推理和表达不确定性,并做出诸如 OLS 是标准假设下的最佳线性无偏估计量 (BLUE) 之类的陈述。获得的结果对于测试模型假设非常有用,这也有助于解释该框架如何对测试经济理论如此有用。
另一方面,机器学习通常会做出限制较少的假设,这不允许这种结果,并且机器学习也更多地关注近似误差,该误差被定义为所选模型中的最佳预测器与最佳预测器之间的误差在所有预测变量中(通常称为贝叶斯预测变量)。可以证明更一般的“学习保证”允许限制模型的估计误差,而很少有假设。然后,在机器学习中采用非常灵活的建模方法通常更自然,这是明智的,因为机器学习研究人员通常专注于预测建模。
我想补充一点,计量经济学中的高级方法允许(除其他外)表达模型的不确定性,例如使用贝叶斯建模可以在候选模型之间的后验概率之间进行比较。我的观点是,根据所选择的方法,计量经济学可以包含更多的不确定性,而不是参数固有的不确定性和误差,这通常是许多类型分析中唯一表达的不确定性。