多变量与多变量回归

机器算法验证 回归 术语
2022-04-12 09:49:26

我对这方面的语义有点不确定,希望有人能对此有所了解。

据我了解,多变量基本上是一个因变量和几个自变量,而多变量是包含多个因变量。但是,在我看到的示例中,这通常与重复测量有关。

相反,假设我有一些数据(自变量),然后是三个因变量。但是,它们不是重复的措施。也许我想“测量”一个人的健康状况,例如,这可能包括:体重、肺活量和静息心率——只是随便挑一些。

所以基本上这些因变量可能会让我对一个人的健康有所了解。例如,如果一个自变量正在吸烟,那么这可能会影响所有三个因变量,但可能其他自变量只会影响每个变量中的一个。

在这种情况下,我在做什么?多元回归,多元回归,混合,还是......?

2个回答

多变量回归是存在多个解释变量的任何回归模型。因此,它通常简称为“多元回归”。在只有一个解释变量的简单情况下,这有时称为单变量回归。

不幸的是,多元回归经常被错误地称为多元回归,反之亦然。多元回归是任何回归模型,其中有多个结果变量。在只有一个结果变量的更常见情况下,这也称为单变量回归。

因此我们可以有:

  • 单变量多元回归。具有一个结果和多个解释变量的模型。这可能是最常见的回归模型,并且为大多数分析师所熟悉,通常被称为多元回归;有时(链接函数是恒等函数)它被称为通用线性模型(不是广义的)。

  • 单变量单变量回归。一个结果,一个解释变量,通常用作回归模型第一门课程的介绍性示例。

  • 多元多元回归。多个结果,多个解释变量。这是问题中描述的场景。

  • 多元单变量回归。多个结果,单个解释变量。这方面的一个例子是 Hotelling 的 T-Squared 检验,它是 T-检验的多元对应物(感谢 @Dave 指出这一点)。

以上是我工作过的应用领域的标准术语:生物统计学、社会科学和心理学。如果其他域以不同的方式使用这些术语,我不会感到惊讶。

多元回归应该指的是您所描述的情况,其中响应具有多个相关维度,例如肺活量和心率。确定每个预测变量如何影响响​​应的每个维度属于模型构建,但它不会改变回归是多变量的事实。

我不知道“多变量回归”这个术语,但我可以看到它指的是正则回归的多元回归,其中一个响应变量的多个预测因子。由于后者(更多)更常见,我希望如果我在职位描述中看到“多变量回归”。(如果我在职位描述中读到“多元回归”,即使这不是该术语的典型用法,也是如此。)

是的,那里有大量的术语滥用。让我大吃一惊的是“多元线性回归”。“多重线性”在数学中具有特定的含义,有人称其为“多重线性”时所指的“多重线性回归”是线性的,而不是多重线性的。