机器算法验证 - 多元线性回归与几个单变量回归模型 - 吾爱随笔录

机器算法验证回归多元分析多元回归

2022-03-07 01:07:41

在单变量回归设置中，我们尝试建模

y = X β + n o i s e

$y = X\beta +noise$

其中观测值的向量，个预测变量的设计矩阵。解决方案是。 $y \in \mathbb{R}^n$ $n$ $X \in \mathbb{R}^{n \times m}$ $m$ $\beta_0 = (X^TX)^{-1}Xy$

在多元回归设置中，我们尝试建模

Y = X β + n o i s e

$Y = X\beta +noise$

其中是一个包含观测值和个不同潜在变量的矩阵。解决方案是。 $y \in \mathbb{R}^{n \times p}$ $n$ $p$ $\beta_0 = (X^TX)^{-1}XY$

我的问题是，这与执行不同的单变量线性回归有何不同？我在这里读到，在后一种情况下，我们考虑了因变量之间的相关性，但我没有从数学中看到它。 $p$

1个回答

在经典多元线性回归的设置中，我们有模型：

Y = X β + ϵ

$Y = X \beta + \epsilon$

其中表示自变量，表示多个响应变量，是 iid 高斯噪声项。噪声的均值为零，并且可以跨响应变量相关。权重的最大似然解等效于最小二乘解（不考虑噪声相关性）[1][2]： $X$ $Y$ $\epsilon$

\hat{β} = (X^{T} X)^{- 1} X^{T} Y

$\hat{\beta} = (X^T X)^{-1} X^T Y$

这相当于为每个响应变量独立求解一个单独的回归问题。这可以从列（包含第个输出变量的权重）可以通过将乘以的第 th 列（包含第个响应变量的值）。 $i$ $\hat{\beta}$ $i$ $(X^T X)^{-1} X^T$ $i$ $Y$ $i$

然而，多元线性回归不同于单独解决单个回归问题，因为统计推断程序考虑了多个响应变量之间的相关性（例如，参见 [2]、[3]、[4]）。例如，噪声协方差矩阵出现在抽样分布、检验统计量和区间估计中。

如果我们允许每个响应变量都有自己的一组协变量，则会出现另一个差异：

Y_{i} = X_{i} β_{i} + ϵ_{i}

$Y_i = X_i \beta_i + \epsilon_i$

其中表示第个响应变量，和表示其对应的一组协变量和噪声项。如上所述，噪声项可以跨响应变量相关。在这种情况下，存在比最小二乘法更有效的估计量，并且不能简化为解决每个响应变量的单独回归问题。例如，参见 [1]。 $Y_i$ $i$ $X_i$ $\epsilon_i$

参考

其它你可能感兴趣的问题