在 DV 上回归 IV,还是在 IV 上回归 DV?

机器算法验证 回归 术语 预测器
2022-04-15 19:08:47

这是一个关于统计语言的问题。您是在 DV 上回归 IV,还是在 IV 上回归 DV?哪个是正确的说法?

2个回答

传统上讲,人们将因变量(Y,结果)回归到变量(X,输入)上。然而,这是对统计语言的严重滥用,许多学科完全放弃了这种措辞。错误在于“依赖”(在正确的统计意义上)是可交换的。如果 A 依赖于 B,则 B 依赖于 A。我们只称“X”(输入变量)“独立”,因为它被认为是固定的或作为实验设计的一部分给出,或者代表感兴趣的人群。

回归模型将结果的条件均值估计为一个或多个预测变量的函数。为此,一个以另一个变量为条件的变量的平均值可能是一个平坦的响应,尽管这些变量确实是相关的(假设 Y 的误差根据 X 而变化)。为了详细说明这一点,编写回归模型估计值的一种好方法如下:

E[Y|X]=β0+β1X

更好的选择是调用“因”变量 (Y):结果、响应、输出,并调用“独立”变量 (X):输入、预测变量、回归变量、协变量或暴露。

该问题预先判断了另一个问题,即有关变量的良好术语。让我们先来看看。

DV因变量的常见但不通用的简写。提醒 DV 经常被用来表示Deo volente,上帝愿意,但那些知道这一点的人以及一些统计数据似乎不太可能混淆或混淆这两个含义。

IV自变量的常见但不通用的简写。指出在许多经济学家和其他一些社会科学家中,IV 现在更可能意味着工具变量,这一点一点也不过时这也不是什么大问题:当人们了解工具变量时,他们应该能够区分这两种用法,至少在上下文中是这样。

让我们暂时假设,至少在许多情况下,一个因变量可以在实质性的基础上被识别为我们实际上有兴趣以某种方式解释或预测的结果响应或效果。然后,自变量是用于预测响应的原因或因素。大多数介绍性课程和课本似乎使用符号表示因变量和yx对于自变量;只要有许多这样的自变量,它们就可以通过下标来区分和/或统称为矩阵。也就是说,有很多例子表明预测兴趣是双向的:如果降雨是玉米产量反应的预测因子,那么我们也可以反过来使用某些分类单元的丰度来预测过去环境的温度、降雨量或盐度。同样,非常重要的是,回归中存在许多变量处于相同基础的问题:伴侣或兄弟姐妹的属性,表面上相同属性的两种测量方法,降雨量或温度随时间在两个仪表或车站等等。这里的问题具有更多的对称性,两种变量之间的区别即使不是毫无意义也可能是任意的。

就术语而言,我们注意到许多人更喜欢其他术语而不是 DV 或因变量。这种偏好至少可以追溯到几十年前:John Wilder Tukey在 1960 年代和 1970 年代的著作中经常使用“回应”一词。但教师、作家和研究人员似乎常常不愿放弃依赖和独立的术语。反对的理由包括(a)许多学生甚至研究人员混淆了这两个词,这两个词显然看起来如此相似;(b) 这些词有其他含义,即使在概率和统计中;(c) 当有可唤起的替代词时,为什么要使用枯燥的词?

同样,许多人发现预测变量协变量解释变量等术语更适合自变量。有很多这样的术语,其中一些,尤其是前两个,在统计科学中具有其他含义。(例如,几十年来,协变量在协方差分析中具有非常特殊的含义,但不知何故已经演变成作为任何类型的预测器也具有更一般的含义。我猜想约翰·内尔德的著作在那里有一些影响。) ,有些人喜欢为此目的而发明的术语,例如regressandregressor:对我来说,这些是如此没有吸引力,以至于即使考虑它们也会有些痛苦。

所有这些都是这里给出的问题的冗长序言(对我来说这不太有趣)。简而言之,通常或标准的回归是(或)上的回归,但至少在单个预测变量的情况下,讨论上的回归也是有意义的,对错误结构有不同的假设。当变量处于相同的基础上时,两种回归可能具有同等的兴趣(以及其他联合关系模型,这留给另一个故事)。y xXx y