自相关是否会导致分段回归中的回归参数出现偏差?

机器算法验证 回归 自相关
2022-04-19 18:23:45

在简单的线性回归问题中,自相关残差不应该导致回归参数的有偏估计。分段回归也可以这样说吗?

假设我想拟合单个变量的连续分段线性函数。例如,假设我们有运输成本和运输重量的数据。该函数是分段的,因为随着重量的增加,在某些时候需要额外的轨道车。我们想找到各个部分的断点和斜率。该模型是拟合的,并且无论出于何种原因,发现残差在时间上是序列相关的。回归参数会不会有偏差?

我在此链接的 Google 电子表格中发布了一些数据:http: //goo.gl/LrTv3

假设已知在(未知)点 x1 和 x2 处有两个断点。我们希望将数据拟合到由下式给出的模型 f(x) 中:

x < x1:      f(x) = a + m1*x
x1 < x < x2: f(x) = a + m1*x1 + m2*(x - x1)
x > x2:      f(x) = a + m1*x1 + m2*(x2 - x1) + m3*(x - x2)

我使用 R 中的 nlm 函数来查找未知参数 x1、x2、m1、m2 和 m3:

sqerr <- function(prm,y,x) {
  a <- prm[1]
  x1 <- prm[2]
  x2 <- prm[3]
  m1 <- prm[4]
  m2 <- prm[5]
  m3 <- prm[6]
  sqerr <- sum((y-(a+ifelse(x<x1,m1*x,
                m1*x1+ifelse(x<x2,m2*(x-x1),
                m2*(x2-x1)+m3*(x-x2)))))^2)
}
data <- read.table("data.txt",header=T)
ai <- 0.4; x1i <- 0.4; x2i <- 0.7; m1i <- 0.0; m2i <- 0.8; m3i <- 3
prm <- c(ai,x1i,x2i,m1i,m2i,m3i)
uu <- nlm(sqerr,prm,data$Y,data$X)

然后我绘制残差与 lag-1 残差:

y <- data$Y
    x <- data$X
a <- uu$est[1]
    x1 <- uu$est[2]
x2 <- uu$est[3]
    m1 <- uu$est[4]
m2 <- uu$est[5]
    m3 <- uu$est[6]
resid <- (y-(a+ifelse(x<x1,m1*x,m1*x1+ifelse(x<x2,m2*(x-x1),m2*(x2-x1)+m3*(x-x2)))))
plot(resid[1:149]~resid[2:150])

显然存在一些顺序相关性。所以我的问题是,回归参数是否因此而有偏差?我有一篇 Kadiyala 的旧论文(A Transformation Used to Circumvent the Problem of Autocorrelation, Econometrica Vol. 36, No. 1, Jan. 1968)指出:

“众所周知(参见 Watson [7] 以及 Watson 和 Hannan [8]),简单的最小二乘估计量虽然是无偏的(当自变量是“固定变量”时),但在存在自相关的情况下通常效率不高。干扰。”

似乎“简单最小二乘法”是指形式为 y = a + bx 的线性方程(即本文中使用的示例)。但是我看到其他论文似乎暗示无论您拥有哪种类型的模型,估计量(即回归参数)都是无偏的。我不认为这是真的。

3个回答

一个经常被遗忘的回归参数是残差的方差。如果残差相关,这将是有偏差的。这意味着必须非常小心地处理您正在执行的任何测试的 p 值。

否则,如果您通过非线性的东西(您的情况)拟合一条线,您应该观察残差的自相关,但通过X 变量而不是通过time在那种情况下,参数没有偏差,它们只是错误的。

但是,您特别提到您的残差在时间上是自相关的,因此您可以在模型中添加时间作为变量并检查这是否使残差去相关。

感谢您分享您的数据。它提出了一些有趣的答案。首先是 y 和 x 之间的潜在有用模型,在此处输入图像描述它表明 y 和前两个 y 之间的密切关系以及 X 的同时期和滞后 1 效应。实际/拟合和预测的图是在此处输入图像描述和清理后的(异常值调整的系列)在此处输入图像描述并不表示电平变化和/或本地时间趋势,而是表示一些一次性异常。原始序列在此处输入图像描述的 ACF 为 ,而模型残差的 ACF 为在此处输入图像描述总之,在存在 x 变量的情况下不需要“局部样条”、局部趋势、水平变化,该变量承载了 y 的视觉暗示性非条件图的负载在此处输入图像描述.现在,如果我们忽略 x 变量和 y 中的任何内存(ARIMA 结构),只专注于检测和合并任何需要的脉冲、电平转换、季节性脉冲和/或本地时间趋势,我们会得到完全不同的答案。在此处输入图像描述这是显示两个时间趋势和两个电平移动以及一些反映未知异常活动的脉冲的方程。实际/适合/预测是在此处输入图像描述残差的 acf 暗示了一些被省略的(通过无 ARIMA 的设计/规范)内存结构!在此处输入图像描述和残差图在此处输入图像描述fit/fore 图形以视觉方式讲述方程的故事在此处输入图像描述. 正如我对我的朋友迈克尔所说,这些数据表明了适当的补救措施。总之,在没有 x 和 y 的记忆的情况下,有一些“局部样条”可以通过分析找到其长度和时间范围。如果包含 x 并考虑 y 的过去,则不需要这些“当地时间趋势” ringwald 而不是 ringold。为了透明度,我是 AUTOBOX 的开发人员之一,我用于此分析的软件。使用的方法基于 GCTiao 和其他人的开创性工作。

我认为分段回归意味着在不同的切点处拟合几条不同的线。目前尚不清楚截止点的数量是否是预先指定的,以及它们的位置是否是预先指定的。即使它们都是预先指定的,似乎每个部分都可以通过普通回归拟合,并且每行中都会存在相关残差和低估或高估残差方差的问题。还有另一个假设没有说明。是否假设每条线的残差与所有其他线的方差相同?所以问题存在并且在这种更复杂的回归类型中可能会更糟。关于爱尔兰统计局的评论。我认为他适合分段模型,因为断点可能是时间干预,会影响模型的平稳部分,也可能是非平稳部分。