我正在寻找 1)机械和 2)直观解释如何确定单个变量的影响,同时保持其他变量不变。
在使用调查数据的示例中,这到底是什么意思:
“保持不变的年龄、性别和收入,教育的效果是___”
我的理解是,通过回归,我们试图重新创建实验环境,在上面的示例中,我们试图比较年龄、性别、收入等相同但教育水平不同的亚群,并估计差异这些亚群的平均值。问题:
- 这种直觉正确吗?
- 这些亚群必然存在吗?如果调查不包含控件值完全相同的受访者怎么办?
- 这些亚群估计的不确定性是如何确定的?
我正在寻找 1)机械和 2)直观解释如何确定单个变量的影响,同时保持其他变量不变。
在使用调查数据的示例中,这到底是什么意思:
“保持不变的年龄、性别和收入,教育的效果是___”
我的理解是,通过回归,我们试图重新创建实验环境,在上面的示例中,我们试图比较年龄、性别、收入等相同但教育水平不同的亚群,并估计差异这些亚群的平均值。问题:
直觉是一个棘手的问题,它取决于人的背景。例如,我在学习数学物理后学习了统计学。对我来说,直觉是偏导数。考虑一个回归模型 它可以重新表述为 其中
对函数求全导数:
的偏导数是这样定义的: 你保持不变,并远离。对的变化非常敏感。您可以看到 beta(系数)是感兴趣变量的斜率:
换句话说,在简单的线性模型中,您的系数是关于变量的偏导数(斜率)。这就是“保持不变”对我的直觉意义。
正如用户 122677 回答的那样,直觉是正确的:在线性回归中,每个系数都是当一个变量值增加一个单位而所有其他变量保持不变时结果的变化量。换句话说,系数是模型预测对每个变量的偏导数。
无论如何,请注意,如果我们的模型包含交互作用,则在不改变交互作用的情况下无法更改变量,因此对一个系数的这种解释作为真正的变化是没有意义的。多项式回归也是如此,其中任何一项都不能在不改变其他项的情况下改变。
关于那些亚群的存在,它们不需要存在。在一些实验设计中它们可以存在,但在具有连续变量的观察性研究中它们不太可能存在。例如: