分位数回归与 OLS 的同方差性

机器算法验证 回归 最小二乘 分位数回归
2022-04-07 03:49:40

当面对同方差误差项时,我对 OLS 的斜率系数与分位数回归的斜率系数有一个问题。人口模型可能如下所示:

yi=β0+β1xi+ui

u_iiid 错误术语。对于不同的分位数,OLS 和 QR的估计斜率系数会收敛到相同的值虽然样本估计可能彼此不同。uiβ^1β1β^1

考虑到 QR 估计量的收敛性,我知道在存在同方差性的情况下,不同分位数回归的所有斜率参数都将收敛到相同的值(如 Koenker 2005:12 所示)。但我只是不确定 OLS 系数的收敛性如何与中值 QR(LAD)系数的收敛性进行比较。是否有证据表明两者都会收敛到相同的值?我的直觉告诉我应该是这样的。β1β1(0.5)

答案可能在 OLS 和 QR 的损失函数中。OLS 最小化平方残差,而 QR(中位数)最小化绝对偏差。因此,当误差平方时,OLS 会比 QR 更重视异常值。但是在同方差的情况下,异常值是否应该相互抵消,因为正误差与负误差一样可能,使得 OLS 和中值 QR 斜率系数相等(至少在收敛方面)?

更新
为了测试对于同方差性的预测,不同分位数的斜率系数是相等的,我在 stata 中进行了测试。这样做只是为了确认前面提到的 Koenker (2005) 的结果。最初的问题是关于 OLS 与 QR 相比的收敛性。我通过以下方式使用 Stata 创建了 n=2000 个观察值:

set obs 2000  
set seed 98034  
generate u = rnormal(0,8)  
generate x = runiform(0,50)
generate y = 1 + x + u

对于这个样本,我对分位数(0.10、0.50、0.90)进行了 QR 回归,然后检验了三个分位数的斜率系数相同的联合假设,即:

H0:β1(0.1)=β1(0.5)=β1(0.9)

这是相应的stata代码:

sqreg y x, quantile(.1, .5, .9) reps(400)
test [q10=q50=q90]: x

证据是压倒性的,H0 不能被非常强烈地拒绝。Wald 测试的输出:

F(  2,  1998) =    0.79
Prob > F =    0.4524

这再次证实了我的想法,但它并没有提供任何关于这是否应该始终预期的理论指导。

2个回答

对于不同的分位数,OLS 和 QR的估计斜率系数总是相同?β1

不,当然不是,因为在这些不同的情况下,最小化的经验损失函数是不同的(OLS 与 QR 的不同分位数)。

我很清楚,在存在同方差性的情况下,不同分位数回归的所有斜率参数都将相同,并且 QR 模型仅在截距上有所不同。

不,不是在有限样本中。以下是从quantregR 中包的帮助文件中获取的示例:

    library(quantreg)
    data(stackloss)
    rq(stack.loss ~ stack.x,tau=0.50) #median (l1) regression fit 
                                      # for the stackloss data.
    rq(stack.loss ~ stack.x,tau=0.25) #the 1st quartile

但是,它们会渐近地收敛到相同的真实值。

但是在同方差的情况下,异常值是否应该相互抵消,因为正误差与负误差一样可能,从而使 OLS 和中值 QR 斜率系数相等?

不会。首先,在任何有限样本中都不能保证误差的完美对称。其次,最小化平方和与绝对值的关系通常会导致不同的值,即使是对称误差也是如此。

一般来说,答案是肯定的,至少对于泰尔回归来说,这是 QR 的一个特例。Theil 回归的斜率估计量是总体斜率的无偏估计量。如果满足 OLS 的所有要求,那么它的相对效率为 85%。在某些情况下,相对而言,它比最小二乘法更有效。

此外,如果您不是坐在那里拥有无限量的数据,而是有一个小样本,那么在很多地方都会更可取。不允许负值导致的偏斜和截断会对 OLS 产生很大影响,而对 Theil 方法几乎没有影响。