回归x到y的最小二乘估计量

机器算法验证 回归 最小二乘 线性模型 估计者
2022-03-27 10:10:56

我一直在阅读线性回归和最小二乘估计。假设我们有 iid 数据这样我们使用线性回归模型并了解到我们经常推导的事实最小二乘估计(x1,yq),(x2,y2),...,(xn,yn)yi=βxi+ϵiβ^=i=1nxiyii=1nxi2

但是我想知道如果我们将 x 回归到 y 会产生什么影响。那么我们是否能够使用 x 到 y 的回归的最小二乘估计来估计1β

首先,我们如何确定这是否是一个好的估计?

2个回答

为了证明反向回归对于不是一个好的估计,回想一下 OLS对于通常是一致的(当在 x 上y 时相应地,当上回归是一致的。1/βyxcov(x,y)/var(x)cov(x,y)/var(y)xy

当误差和回归量之间的关系是(本质上,预定性)是这样的时,有那个将要求 并且没有理由期望这通常会成立。β=cov(x,y)/var(x)cov(x,y)/var(y)=1/β

cov(x,y)/var(y)=var(x)/cov(x,y),

事实上,该条件可以重新表示为 这是Cauchy-Schwarz 不等式的极限情况,已知只有当所讨论的随机变量是彼此的倍数时才能获得。

cov(x,y)2var(y)var(x)=1,

在这种情况下,我们有,比如说,,所以 y=βx

cov(x,y)var(x)=βvar(x)/var(x)=β
cov(x,y)var(y)=βvar(x)β2var(x)=1β

这是一个小图形说明(您想阅读的情况,将图逆时针旋转 90 度):xy

library(mvtnorm)
n <- 10000
cov.xy <- 0.5
var.y <- 1
var.x <- 4
beta <- cov.xy/var.x
dat <- rmvnorm(n, mean = rep(0,2), sigma = matrix(c(var.y, cov.xy, cov.xy, var.x), ncol=2))

y <- dat[,1]
x <- dat[,2]

par(mfrow=c(1,2))
plot(x, y, pch=19, cex=0.2, col="lightgreen")
abline(lm(y~x),lwd=2, col="lightgreen")          # a regression of y on x
abline(a=0, b=beta, lwd=2, col="green")          # what OLS of y on x is consistent for

plot(y, x, pch=19, cex=0.2, col="lightblue")
abline(lm(x~y), lwd=2, col="lightblue")          # a regression of x on y
abline(a=0, cov.xy/var.y, lwd=2, col="darkblue") # what OLS of x on y is consistent for
abline(a=0, b=1/beta, lwd=2, col="red")          # what OLS of x on y is NOT consistent for

在此处输入图像描述

不,一般来说,如果您交换xy,您将获得与普通最小二乘不同的线您可以通过交换xy并将其与1/β. 这种差异的原因是普通最小二乘法不是通过点拟合一条线,而是关于预测,因此假设变量的特定作用:x是“预测器”,y是“响应”。

如果您的问题实际上是关于通过点拟合一条线,您应该考虑“正交最小二乘法”,这是一种对称方法,并且(对于直线)有两个等效的解决方案:

  1. 右奇异向量v1对应最大奇异值s1sn在奇异值分解(SVD)中 Q=USVT从中心数据点构建的矩阵

    QT=(q1,,qn) with qi=xia

  2. 对应于的最大特征值的特征向量QTQ.QTQ 与散布矩阵相同,或(n1)乘以数据点的协方差矩阵x1,,xn. 因此,该向量只是从主成分分析 (PCA) 中获得的主成分

请注意,当点恰好落在(或围绕)一条垂直线时,正交最小二乘法也会产生合理的结果。

参考:

H. Späth:“与线性流形拟合的正交最小二乘法”。Numerische Mathematik 48 (1986),第 441-445 页。