机器算法验证 - 线性回归误差的方差-协方差矩阵 - 吾爱随笔录

线性回归误差的方差-协方差矩阵

机器算法验证方差错误协方差矩阵贝塔回归

2022-03-05 20:19:58

在实践中统计分析包是如何计算 var/cov 误差矩阵的？

这个想法在理论上对我来说是很清楚的。但在实践中并非如此。我的意思是，如果我有一个随机变量向量，我知道方差/协方差矩阵将给出均值偏差向量的外积：。 $\textbf{X}=(X_{1}, X_{2}, \ldots, X_{n})^\top$ $\Sigma$ $\Sigma=\mathrm{E}\left[(\textbf{X}-\mathrm{E}(\textbf{X}))(\textbf{X}-\mathrm{E}(\textbf{X}))^\top\right]$

但是当我有一个样本时，我的观察误差不是随机变量。或者更好的是，它们是，但前提是我从同一人群中抽取了许多相同的样本。否则，他们会被给予。所以，我的问题再次是：统计包如何从研究人员提供的观察列表（即样本）开始生成 var/cov 矩阵？

3个回答

类型的模型的协方差矩阵通常计算为其中是残差平方和，和是自由度（通常是观察数减去参数数）。 $y = X\beta + \epsilon$

(X^{t} X)^{- 1} \frac{σ^{2}}{d}

$(X^t X)^{-1}\frac{\sigma^2}{d}$

σ^{2}

$\sigma^2$

σ^{2} = \sum_{i} (y_{i} - X_{i} \hat{β})^{2}

$\sigma^2=\sum_i (y_i - X_i\hat\beta)^2$

d

$d$

对于稳健和/或聚集的标准误差，乘积稍作修改。也可能有其他方法来计算协方差矩阵，例如由外部产品的期望所建议的。 $X^t X$

误差方差的OLS 估计，： $\sigma^2$

s^{2} = \frac{{\hat{ε}}^{⊤} \hat{ε}}{n - p}

$s^2=\frac{\hat \varepsilon^\top\hat \varepsilon}{n-p}$

这包含在Julian J. Faraway 的 Practical Regression and Anova using R 中，第 21 页。

它在 R 中的计算示例，基于对mtcars数据库中包含的多个汽车模型规格进行回归的每加仑英里数的线性模型：ols = lm(mpg ~ disp + drat + wt, mtcars). 这些是手动计算和lm()函数的输出：

> rdf = nrow(X) - ncol(X)                    # Residual degrees of freedom
> s.sq = as.vector((t(ols$residuals) %*% ols$residuals) / rdf) 
>                                            # s square (OLS estimate of sigma square)
> (sigma = sqrt(s.sq))                       # Residual standar error
[1] 2.950507
> summary(ols)

Call:
lm(formula = mpg ~ disp + drat + wt, data = mtcars)
...
Residual standard error: 2.951 on 28 degrees of freedom

Variance - 估计系数的协方差矩阵，： $\hat \beta$

V a r [\hat{β} ∣ X] = σ^{2} {(X^{⊤} X)}^{- 1}

$\mathrm{Var}\left[\hat \beta \mid X \right] =\sigma^2 \left(X^\top X\right)^{-1}$

在本在线文档的第 8 页中估计为

\hat{V a r} [\hat{β} ∣ X] = s^{2} {(X^{⊤} X)}^{- 1}

$\hat{\mathrm{Var}}\left[\hat \beta \mid X \right] =s^2 \left(X^\top X\right)^{-1}$

> X = model.matrix(ols)                             # Model matrix X
> XtX = t(X) %*% X                                  # X transpose X
> Sigma = solve(XtX) * s.sq                         # Variance - covariance matrix
> all.equal(Sigma, vcov(ols))                       # Same as built-in formula
[1] TRUE
> sqrt(diag(Sigma))                                 # Calculated Std. Errors of coef's
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605 
> summary(ols)[[4]][,2]                             # Output of lm() function
(Intercept)        disp        drat          wt 
7.099791769 0.009578313 1.455050731 1.217156605

通过线性回归，我们拟合了一个模型。是因变量，是预测（解释）变量。我们使用提供给我们的数据（训练集或样本）来估计总体。不被视为随机变量。由于是随机的。 $Y = \beta*X +\varepsilon$ $Y$ $X$ $\beta$ $X$ $Y$

其它你可能感兴趣的问题

上一篇箱线图等效于重尾分布？下一篇F 统计量、F 临界值和 P 值