解释多元回归和多元回归之间的区别,最少使用符号/数学

机器算法验证 回归 多重回归 术语 多元回归
2022-02-09 23:45:57

多元回归和多元回归真的不同吗?无论如何,什么变量?

4个回答

很快,我会说:“多”适用于进入模型(或等效地设计矩阵)的预测变量的数量,具有单一结果(Y 响应),而“多变量”指的是响应向量矩阵。不记得作者以这种考虑开始了多元建模的介绍性部分,但我认为是 Brian Everitt 在他的教科书An R and S-Plus Companion to Multivariate Analysis中。要对此进行深入讨论,我建议您阅读他的最新著作《行为科学的多变量建模和多变量分析》

对于“变量”,我会说这是指任何遵循已知或假设分布的随机变量的常用方法,例如,我们将高斯变量Xi称为从正态分布中提取的一系列观察值(参数μσ2 )。在概率方面,我们说这些是 X 的一些随机实现,具有数学期望μ,其中大约 95% 预计位于[μ2σ;μ+2σ]范围内。

这里有两个密切相关的例子来说明这些想法。这些例子有点以美国为中心,但这些想法可以外推到其他国家。

示例 1

假设一所大学希望改进其录取标准,以便录取“更好”的学生。此外,假设大学希望将学生的平均绩点 (GPA) 用作学生的表现指标。他们考虑了几个标准,例如高中 GPA (HSGPA)、SAT 分数 (SAT)、性别等,并且想知道就 GPA 而言,这些标准中的哪一个很重要。

解决方案:多重回归

在上述情况下,有一个因变量(GPA),而您有多个自变量(HSGPA、SAT、性别等)。您想找出哪一个自变量是您的因变量的良好预测因子。您将使用多元回归来进行此评估。

示例 2

与上述情况不同,假设招生办公室想要跟踪学生在一段时间内的表现,并希望确定他们的哪个标准在一段时间内推动学生的表现。换句话说,他们有学生在校四年的 GPA 分数(例如,GPA1、GPA2、GPA3、GPA4),他们想知道哪个自变量预测的 GPA 分数会逐年提高-年为基础。招生办公室希望发现相同的自变量可以预测所有四年的表现,以便他们选择的录取标准可以确保学生在所有四年中的表现始终如一。

解决方案:多元回归

在示例 2 中,我们有多个因变量(即 GPA1、GPA2、GPA3、GPA4)和多个自变量。在这种情况下,您将使用多元回归。

简单回归涉及一个因变量 ( ) 和一个自变量 ( ):yxy=f(x)

多元回归(又名多元回归)涉及一个因变量和多个自变量:y=f(x1,x2,...,xn)

多元回归涉及多个因变量和多个自变量:您可能会遇到将因变量和自变量都排列为变量矩阵的问题(例如),因此表达式可以写成,其中大写字母表示矩阵。y1,y2,...,ym=f(x1,x2,...,xn)y11,y12,...x11,x12,...Y=f(X)

进一步阅读:

我认为除了方程两边的变量数量之外,这里的关键见解(和差异化因素)是对于多元回归的情况,目标是利用响应变量之间(通常)存在相关性的事实(或结果)。例如,在医学试验中,预测变量可能是体重、年龄和种族,结果变量是血压和胆固醇。理论上,我们可以创建两个“多元回归”模型,一个是根据体重、年龄和种族回归血压,另一个模型是根据这些相同因素回归胆固醇。然而,或者,我们可以创建一个单一的多元回归模型来预测两者血压和胆固醇同时基于三个预测变量。这个想法是多元回归模型可能更好(更具预测性),因为它可以从患者血压和胆固醇之间的相关性中学习更多。