我一直在阅读线性回归和最小二乘估计。假设我们有 iid 数据这样我们使用线性回归模型并了解到我们经常推导的事实最小二乘估计。
但是我想知道如果我们将 x 回归到 y 会产生什么影响。那么我们是否能够使用 x 到 y 的回归的最小二乘估计来估计?
首先,我们如何确定这是否是一个好的估计?
我一直在阅读线性回归和最小二乘估计。假设我们有 iid 数据这样我们使用线性回归模型并了解到我们经常推导的事实最小二乘估计。
但是我想知道如果我们将 x 回归到 y 会产生什么影响。那么我们是否能够使用 x 到 y 的回归的最小二乘估计来估计?
首先,我们如何确定这是否是一个好的估计?
为了证明反向回归对于不是一个好的估计,回想一下 OLS对于通常是一致的(当在 x 上y 时。相应地,当在上回归是一致的。
当误差和回归量之间的关系是(本质上,预定性)是这样的时,有那个将要求
并且没有理由期望这通常会成立。
事实上,该条件可以重新表示为
这是Cauchy-Schwarz 不等式的极限情况,已知只有当所讨论的随机变量是彼此的倍数时才能获得。
在这种情况下,我们有,比如说,,所以
和
这是一个小图形说明(您想阅读在的情况,将图逆时针旋转 90 度):
library(mvtnorm)
n <- 10000
cov.xy <- 0.5
var.y <- 1
var.x <- 4
beta <- cov.xy/var.x
dat <- rmvnorm(n, mean = rep(0,2), sigma = matrix(c(var.y, cov.xy, cov.xy, var.x), ncol=2))
y <- dat[,1]
x <- dat[,2]
par(mfrow=c(1,2))
plot(x, y, pch=19, cex=0.2, col="lightgreen")
abline(lm(y~x),lwd=2, col="lightgreen") # a regression of y on x
abline(a=0, b=beta, lwd=2, col="green") # what OLS of y on x is consistent for
plot(y, x, pch=19, cex=0.2, col="lightblue")
abline(lm(x~y), lwd=2, col="lightblue") # a regression of x on y
abline(a=0, cov.xy/var.y, lwd=2, col="darkblue") # what OLS of x on y is consistent for
abline(a=0, b=1/beta, lwd=2, col="red") # what OLS of x on y is NOT consistent for
不,一般来说,如果您交换x和y,您将获得与普通最小二乘不同的线。您可以通过交换x和y并将其与. 这种差异的原因是普通最小二乘法不是通过点拟合一条线,而是关于预测,因此假设变量的特定作用:x是“预测器”,y是“响应”。
如果您的问题实际上是关于通过点拟合一条线,您应该考虑“正交最小二乘法”,这是一种对称方法,并且(对于直线)有两个等效的解决方案:
右奇异向量对应最大奇异值在奇异值分解(SVD)中
从中心数据点构建的矩阵
对应于的最大特征值的特征向量. 与散布矩阵相同,或乘以数据点的协方差矩阵. 因此,该向量只是从主成分分析 (PCA) 中获得的主成分
请注意,当点恰好落在(或围绕)一条垂直线时,正交最小二乘法也会产生合理的结果。
参考:
H. Späth:“与线性流形拟合的正交最小二乘法”。Numerische Mathematik 48 (1986),第 441-445 页。