机器算法验证 - 如何从回归输出评估效果大小 - 吾爱随笔录

如何从回归输出评估效果大小

机器算法验证回归规模效应

2022-04-03 03:20:25

在进行回归时，效应的统计显着性很重要，但其幅度更为重要。

我应该如何评估效果的大小？我通常在计量经济学中读过，标准误差被用作基准，但如何？

这是我要分析的回归表的一个示例（Miguel，Kremer Econometrica (2004)）。如何查看“第一组学校指标”的效果是否高？

1个回答

也许一个例子会有所帮助。这个非常简单的例子来自 Gelman 和 Hill (2006, p.31-34)。我们想根据母亲的教育 (mom.hs) 和智商 (mom.iq) 来预测孩子的认知测试分数 (kid.score)： mom.hs 是一个二元预测因子，指示母亲是否高中毕业 (1) 或不是 (0)，并且 mom.iq 是一个连续预测器。拟合的线性回归模型是

kid.score = 26 + 6 \cdot mom.hs + 0.6 \cdot mom.iq + error

$\text{kid.score} = 26+6\cdot \text{mom.hs}+0.6 \cdot \text{mom.iq} + \text{error}$

现在，解释相当简单。例如，对于 mom.iq 增加 1 个单位，我预计 child.score 增加 0.6 分（保持 mom.hs 的值不变）。这种关系（kid.score 和 mom.iq 之间）在统计上是显着的，但实际上是否显着？效果大小，这里是非标准化回归系数（0.6），大吗？其实，我不知道。我需要了解因变量和自变量的值的分布。但更重要的是，我需要了解解释儿童认知测试分数与母亲智商之间关系的理论。

查看表格并假设这是一个线性模型（并且报告了非标准化回归系数），对于“第 1 组（1998 年治疗）学校的指标”增加 1 个单位，我预计因变量减少 0.25 个点（对于模型1 并保持其他变量不变）。同样，我需要知道解释变量之间关系的理论，这将指导我解释影响的大小。

在这种情况下，我想不出一个基准。但是，如果拥有基准的一个功能是使比较成为可能，那么标准化系数可能值得考虑。标准化（测试版， $\hat\beta*$ ) 系数更容易比较，因为变量被标准化为平均值为 0，标准差为 1。您可以比较 beta 系数（以标准差为单位）来评估预测变量的相对强度，例如“一个标准X 中的偏差增加/减少将产生 $\hat\beta*$ Y 的标准差增加/减少”。Acock (2014) 还认为，它们可以被解释为类似于相关性： $\hat\beta* < 0.2$ 被认为是弱者， $0.2 < \hat\beta* < 0.5$ 适中，和 $\hat\beta* > 0.5$ 强烈影响（第 272 页），但我无法从其他来源验证此信息。此外，我对标准化系数的使用提出了一些（强烈的）警告（Fox，2016，p.102；Harrell，2015，p.103-104），这就是例子。

因此，再次重复，要评估效果的大小（基于此输出，非标准化回归系数），您需要了解有关变量的信息（例如，它们的测量方式、分布、值范围等），以及解释它们之间关系的理论。

阿科克，AC（2014）。Stata 简介（第 4 版）。得克萨斯州：Stata Press。

福克斯，J. (2016)。应用回归分析和广义线性模型（第 3 版）。洛杉矶：圣人出版社。

Gelman, A. 和 Hill, J. (2006)。使用回归和多级模型的数据分析。剑桥：剑桥大学出版社。

哈勒尔，FE（2015）。回归建模策略（第 2 版）。查姆：斯普林格。

其它你可能感兴趣的问题

上一篇如何使用 MGF 导出卡方分布的二阶矩？下一篇Jim Simons 所说的“永远不要覆盖计算机”是什么意思？