因变量是自变量的函数;我可以明智地将它们包含在回归中吗?

机器算法验证 回归 最小二乘
2022-04-18 12:58:34

我们创建了一项调查,询问学生的 GPA(=加权平均成绩)和他们在某些特定课程中的分数(计入 GPA)。

我们想使用简单的 OLS 模型查看哪些回归量会影响 GPA。使用这样的公式是否明智?

GPA ~ grade_maths + grade_statistics + grade_privatelaw + ... + {other regressors, like study habits or origin}

当然,成绩回归变量非常显着(有些比其他变量更重要,并且与他们在 GPA 中的权重没有直接关系),而其他的则很少......

这是一个内生性的例子,即这样的回归是否违反了严格的外生性?

通过此回归,我们希望快速了解哪些变量可能在随后的回归中有用,例如尝试找出在定量课程中表现出色是否有助于在法律和其他类似想法中获得好成绩。 ..

3个回答

要考虑的另一点:使学生在一门课程中表现出色的因素与使他/她在另一门课程中表现出色的因素有关。有一些总体因素(认知、个性、环境)在确定每个单独的课程成绩方面发挥了一定的作用。因此,使用回归——在控制 X2、X3、X4 等的同时查看 X1 与 GPA 的关系——将“蚕食”每个 XY 关系,将关系的一部分从自身中分离出来。用 Tukey 和 Mosteller 的话来说,你获得的系数将是“任意胡说八道”。以下是 Elazar Pedhazur 所说的(行为研究中的多重回归,第 3 版,170-2):

“偏相关不是一种万能的控制方法 [...] 控制变量而不考虑关于它们之间关系模式的理论考虑可能会产生误导或无意义的结果 [...] 控制一种心理测量是没有意义的比方说,当目的是研究心智能力和学业成绩之间的关系时,将另一种心智能力测量与学业成绩相关联。[……]这无异于将关系从自身中分离出来,并可能导致心智能力和学业成绩不相关的错误结论。”

我建议通过回归预测 GPA 研究变量之间的双变量相关性。预测每个单独的课程成绩(@probabilityislogic 的想法)似乎也非常值得做。@Manoel 的因子分析想法让我停下来,因为您可能没有绘制出关键潜在因素所需的所有变量。

强外生性是与动态模型相关的术语,即涉及时间序列数据时。由于您正在进行一次性调查,因此该术语不适用。回归的问题可能是省略了变量偏差由于 GPA 是加权平均,因此纯算术公式适用:

GPA=w1G1+...+wnGn

其中是权重,是等级。这个方程不是随机的。但是我们可以说每个年级是由学生的能力加上随机项决定的:wiGi

Gi=fi(A)+εi

其中是决定学生能力的变量向量,是关系的函数形式。Af

从这个角度来看,在回归中包含成绩是没有意义的。如何聚合成函数关系可能会令人感兴趣fif

GPA=f(A)+ε

但这并不能回答您给定示例中的问题。因此,正如其他人建议的那样,最好使用因子分析

我认为拟合回归没有问题。我们进行回归是因为我们相信预测变量可能与响应有关,您只需从更多知识开始。

但你实际上想回答什么问题?某些系数显着这一事实并不令人惊讶,因此这些问题一开始并不是真正有趣的问题。有趣的是,它们是否不同于 0(GPA 中的权重)以外的值。这可以告诉您除了已知影响之外它们是否具有间接影响,例如数学分数可能与不在您的模型中但对 GPA 有贡献的科学分数有关。