在回归中保持其他变量不变(直观地)是什么意思?

机器算法验证 回归 解释
2022-03-15 22:47:22

我正在寻找 1)机械和 2)直观解释如何确定单个变量的影响,同时保持其他变量不变。

在使用调查数据的示例中,这到底是什么意思:

“保持不变的年龄、性别和收入,教育的效果是___”

我的理解是,通过回归,我们试图重新创建实验环境,在上面的示例中,我们试图比较年龄、性别、收入等相同但教育水平不同的亚群,并估计差异这些亚群的平均值。问题:

  1. 这种直觉正确吗?
  2. 这些亚群必然存在吗?如果调查不包含控件值完全相同的受访者怎么办?
  3. 这些亚群估计的不确定性是如何确定的?
3个回答

直觉是一个棘手的问题,它取决于人的背景。例如,我在学习数学物理后学习了统计学。对我来说,直觉是偏导数。考虑一个回归模型 它可以重新表述为 其中

yi=a+bxxi+bzzi+εi
yi=f(xi,zi)+εi,
f(x,z)=bxx+bzz

对函数求全导数f()

df=fxdx+fzdz

的偏导数是这样定义的: 你保持不变,并远离的变化非常敏感您可以看到 beta(系数)是感兴趣变量的斜率: x

fx=limΔx0f(x+Δx,z)f(x,z)Δx
zxfx
fx=bx

换句话说,在简单的线性模型中,您的系数是关于变量的偏导数(斜率)。这就是“保持不变”对我的直觉意义。

正如用户 122677 回答的那样,直觉是正确的:在线性回归中,每个系数都是当一个变量值增加一个单位而所有其他变量保持不变时结果的变化量。换句话说,系数是模型预测对每个变量的偏导数。

无论如何,请注意,如果我们的模型包含交互作用,则在不改变交互作用的情况下无法更改变量,因此对一个系数的这种解释作为真正的变化是没有意义的。多项式回归也是如此,其中任何一项都不能在不改变其他项的情况下改变。

关于那些亚群的存在,它们不需要存在。在一些实验设计中它们可以存在,但在具有连续变量的观察性研究中它们不太可能存在。例如:

  • 在具有二元(或离散有限)变量的完整实验设计中,变量值的所有组合都在样本中。
  • 在具有连续变量的观察性研究中,每个观察值很可能为所有变量获得唯一值,因此不太可能存在两个元素,所有变量除一个之外都相等。
  1. 直觉在其基础上是正确的。我也将尝试以简短直观的方式回答-
  2. 这些子群体必然存在,因为您通过以下方式使它们保持不变:(a)根据推测的协变量对您的受试者进行抽样或(b)您对其可变性施加约束(即方差= 0)。如果其分类变量或通过取给定协变量(年龄、教育、收入等)的平均值,则通过取 1 组(例如,仅限男性、仅限金发等)来完成。