在线性多元回归方程中,如果 beta 权重反映了每个独立变量的贡献超过所有其他 IV 的贡献,那么在回归方程中,预测 DV 的所有 IV 共享的方差是哪里?
例如,如果下面显示的维恩图(取自此处的 CV 的“关于”页面:https ://stats.stackexchange.com/about )被重新标记为 3 个 IV 和 1 个 DV,那么带有星号的区域将在哪里输入进入多元回归方程?

在线性多元回归方程中,如果 beta 权重反映了每个独立变量的贡献超过所有其他 IV 的贡献,那么在回归方程中,预测 DV 的所有 IV 共享的方差是哪里?
例如,如果下面显示的维恩图(取自此处的 CV 的“关于”页面:https ://stats.stackexchange.com/about )被重新标记为 3 个 IV 和 1 个 DV,那么带有星号的区域将在哪里输入进入多元回归方程?

要理解该图可能意味着什么,我们必须定义一些东西。假设维恩图显示了 4 个不同变量之间的重叠(或共享)方差,并且我们想要预测借助我们的知识,, 和. 也就是说,我们希望能够减少不确定性(即方差)从零方差到残差。能做到多好?这就是维恩图为您解答的问题。
每个圆圈代表一组点,因此代表一个方差量。在大多数情况下,我们对,但该图还显示了预测变量中的方差。关于我们的身材,有几点需要注意。首先,每个变量都有相同的方差——它们的大小都相同(尽管不是每个人都会如此字面地使用维恩图)。此外,还有相同数量的重叠等。需要注意的更重要的一点是,预测变量之间存在大量重叠。这意味着它们是相关的。这种情况在处理二级(即档案)数据、观察研究或现实世界的预测场景时非常常见。另一方面,如果这是一个设计好的实验,它可能意味着设计或执行不佳。再继续这个例子,我们可以看到我们的预测能力是中等的;大部分的可变性在使用了所有变量后仍然是剩余可变性(目测图表,我猜)。还有一点需要注意的是,一旦和已输入模型,不考虑任何变化.
现在,在拟合了具有多个预测变量的模型之后,人们经常想要测试这些预测变量以查看它们是否与响应变量相关(尽管尚不清楚这是否像人们认为的那样重要)。我们的问题是,为了测试这些预测变量,我们必须对平方和进行分区,并且由于我们的预测变量是相关的,因此存在可以归因于多个预测变量的 SS。事实上,在星号区域,SS 可以归因于三个预测变量中的任何一个。这意味着没有唯一的 SS 分区,因此没有唯一的测试。如何处理这个问题取决于研究人员使用的 SS 类型和研究人员做出的其他判断。由于许多软件应用程序默认返回类型 III SS,因此许多人丢弃了重叠区域中包含的信息,而没有意识到他们已经做出了判断调用。我解释了这些问题,不同类型的 SS,并在此处详细介绍。
如前所述,这个问题专门询问所有这些在betas / 回归方程中的位置。答案是没有。我在此处的回答中包含有关此的一些信息(尽管您必须在字里行间稍微阅读一下)。
Peter Kennedy在他的书和JSE 文章中对用于回归的 Ballentine/Venn 图进行了很好的描述,包括它们可能使您误入歧途的案例。
要点是,仅在估计和测试斜率系数时才丢弃带星号的区域变化。为了预测和计算的目的,重新添加了该变化.
我意识到这是一个(非常)过时的线程,但是由于我的一位同事本周问了我同样的问题,并且在网上找不到我可以指出他的东西,所以我想我会“为后代”添加我的两美分这里。我不相信迄今为止提供的答案可以回答 OP 的问题。
我将把问题简化为只涉及两个自变量;将其扩展到两个以上非常简单。考虑以下场景:两个自变量(X1 和 X2),一个因变量(Y),1000 个观测值,两个自变量高度相关(r=.99),每个自变量与因变量相关变量 (r=.60)。不失一般性,将所有变量标准化为均值为零和标准差为 1,因此每个回归中的截距项都为零。
在 X1 上运行 Y 的简单线性回归将产生 0.36 的 r 平方和 0.6 的 b1 值。同样,在 X2 上运行 Y 的简单线性回归将产生 0.36 的 r 平方和 0.6 的 b1 值。
在 X1 和 X2 上运行 Y 的多元回归将产生一个略高于 0.36 的 r 平方,并且 b1 和 b2 的值都为 0.3。因此,Y 的共享变化在 b1 和 b2 中都被捕获(平等地)。
我认为 OP 可能做了一个错误的(但完全可以理解的)假设:即,随着 X1 和 X2 越来越接近完全相关,它们在多元回归方程中的 b 值越来越接近零。事实并非如此。事实上,当 X1 和 X2 越来越接近完全相关时,它们在多元回归中的 b 值越来越接近其中任何一个的简单线性回归中 b 值的一半。然而,随着 X1 和 X2 越来越接近完全相关,b1 和 b2 的标准误差越来越接近无穷大,因此 t 值收敛于零。因此,t 值将收敛于零(即,X1 和 Y 或 X2 和 Y 之间没有唯一的线性关系),
因此,对 OP 问题的回答是,随着 X1 和 X2 之间的相关性趋于一致,偏斜率系数的每一个都接近对 Y 值的预测做出同等贡献,即使这两个自变量都没有提供任何对依赖项的唯一解释多变的。
如果您希望根据经验进行检查,请生成一个具有上述特征的虚构数据集(...我使用了一个名为 Corr2Data.sas 的 SAS 宏...)。查看 b 值、标准误差和 t 值:您会发现它们与此处描述的完全一样。
HTH //菲尔