具有多个具有相关误差的 DV 的线性回归

机器算法验证 术语 多元回归
2022-03-25 08:28:49

当我想到将线性回归推广到几个因变量 (DV) 时,我假设这样做的自然方法是将正态分布的误差项替换为多元正态分布的误差项,其协方差矩阵可能不是对角矩阵. (并且每个自变量都会得到一个系数向量,其长度等于 DV 的数量,而不是只有一个系数。)但是,如果在 R 中执行类似lm(cbind(y1, y2) ~ x1 + x2), 其中y1y2都是向量的操作,您似乎会得到相同的结果(即,相同的系数和预测)与您单独运行时lm(y1 ~ x1 + x2)一样lm(y2 ~ x1 + x2)所以看起来 R 只是为每个 DV 做一个单变量回归。另请参阅此问题,我认为提问者在询问这种模型,但并不是每个人都意识到这一点。

下面是一些具体的问题:

  1. 如果我描述的模型通常不被称为“多元线性回归”,那么它叫什么,如果它有一个众所周知的名字?

  2. 在 Python 或 R 中拟合这样一个模型(即估计系数和误差协方差矩阵的条目)的好方法是什么?

1个回答

这实际上称为多元回归。我只是认为它不是一个常用的术语,因为它不是一个常用的模型。另请注意,它很容易与“多元线性回归”混淆。

多元回归相对不受欢迎(并且没有在任何主要统计软件包中明确实现)的原因实际上隐藏在对R 中多元线性回归的答案之一的评论中,我将在此重复:

User603 的回答是正确的。给定一个模型并假设(所以你没有严格的对角协方差矩阵) B 的最大似然估计B_,这相当于对每个 q 响应变量执行单独的普通最小二乘估计,并且不依赖于有时在文献中显示为是精度矩阵)Y=XB+EEN(0,Σ)BBOLS=(XTX)1XTYΣΣΩ1Ω

这就是lm设计这种方式的原因:因为系数估计实际上是等价的。

因此,只有当您尝试使用参数估计的理论标准误差(而不是自举)进行统计测试时,或者您尝试估计模型预测的分布(使用不正确的平先验等价于后验预测)。

如果您对在因变量中使用相关结构感兴趣,Breiman 和 Friedman (1997) [1] 有一篇非常有趣的论文,他们在其中开发了一种他们称为“凝乳和乳清”的程序来提高预测精度多元线性回归问题。

我对这类模型也有一些个人经验,但它们令人不快,而且大多没有成果。我试图通过为每个数据点指定一个多元正态误差分布来直接拟合 Stan。当时我完全不知道自己在做什么,我一直在对模型进行扩展,所以它变成了一个无法收敛的混乱,我完全放弃了它。但是我认为这个基本想法有一些优点,我很想在某个时候再试一次。

[1]:Breiman, L. 和 Friedman, J. (1997)。预测多元线性回归中的多元响应。皇家统计学会杂志,59 (1), 3-54。可在以下网址获得(门控): http: //onlinelibrary.wiley.com/doi/10.1111/1467-9868.00054/pdf可用(免费):你知道去哪里看😉