机器算法验证 - 分位数回归揭示不同分位数的不同关系：如何？ - 吾爱随笔录

分位数回归揭示不同分位数的不同关系：如何？

机器算法验证解释分位数回归

2022-03-11 22:01:12

分位数回归 (QR) 有时被称为揭示分布的不同分位数的变量之间的不同关系。例如，Le Cook 等人。“超越均值思考：使用分位数回归方法进行卫生服务研究的实用指南”暗示 QR 允许感兴趣的结果和解释变量之间的关系在变量的不同值之间是不恒定的。

但是，据我所知，在标准线性回归模型中

y = β_{0} + β X + ε

$y = \beta_0 + \beta X + \varepsilon$ 和

ε

$\varepsilon$ 具有独立性和独立性

X

$X$ ，斜率的 QR 估计量

β

$\beta$ 对于总体斜率是一致的（这是唯一的，并且无论如何在分位数之间都没有变化）。也就是说，无论分位数如何，被估计的对象总是相同的。诚然，截距并非如此，因为 QR 截距估计器旨在估计误差分布的特定分位数。总而言之，我看不出变量之间的不同关系应该如何通过 QR 在不同的分位数上显示出来。我想这是标准线性回归模型的一个属性，而不是我理解的错误，但我不确定。

我认为当标准线性模型的某些假设被违反时，例如在某些形式的条件异方差下，情况会有所不同。然后也许 QR 斜率估计会收敛到线性模型的真实斜率以外的其他东西，并以某种方式揭示不同分位数的不同关系。

我怎么了？我应该如何正确理解/解释分位数回归揭示不同分位数变量之间不同关系的说法？

1个回答

正态线性模型中的“真实斜率”告诉您平均响应变化了多少，这要归功于 $x$ . 通过假设正态性和等方差，响应的条件分布的所有分位数都与此一致。有时，这些假设是非常不切实际的：条件分布的方差或偏度取决于 $x$ 因此，它的分位数在增加时以自己的速度移动 $x$ . 在 QR 中，您会立即从非常不同的斜率估计中看到这一点。由于 OLS 只关心平均值（即平均分位数），因此您不能单独对每个分位数进行建模。在那里，您在对其分位数进行陈述时完全依赖条件分布的固定形状的假设。

编辑：嵌入评论并说明

如果您愿意做出如此强的假设，那么运行 QR 并没有多大意义，因为您始终可以通过条件均值和固定方差来计算条件分位数。所有分位数的“真实”斜率将等于平均值的真实斜率。在特定的样本中，当然会有一些随机变化。或者你甚至可能发现你的严格假设是错误的......

让我用 R 中的一个例子来说明。它显示了最小二乘线（黑色），然后用红色显示了根据以下线性关系模拟的数据的建模 20%、50% 和 80% 分位数

y = x + x ε, ε \sim N (0, 1) iid,

$y = x + x \varepsilon, \quad \varepsilon \sim N(0, 1) \ \text{iid},$ 这样不仅条件均值

y

$y$ 取决于

x

$x$ 还有方差。

由于对称的条件分布，均值和中值的回归线基本相同。它们的斜率为 1。
80% 分位数的回归线要陡峭得多（斜率 1.9），而 20% 分位数的回归线几乎是恒定的（斜率 0.3）。这非常适合极不等方差。
大约 60% 的值在外部红线内。它们在每个值处形成一个简单的逐点 60% 预测区间 $x$ .

生成图片的代码：

library(quantreg)

set.seed(3249)
n <- 1000
x <- seq(0, 1, length.out = n)
y <- rnorm(n, mean = x, sd = x)

plot(y~x)

(fit_lm <- lm(y~x)) # intercept: 0.02445, slope: 1.04858 
abline(fit_lm, lwd = 3)

# quantile cuts
taus <- c(0.2, 0.5, 0.8)

(fit_rq <- rq(y~x, tau = taus))
#               tau= 0.2      tau= 0.5    tau= 0.8
# (Intercept) 0.00108228 -0.0005110046 0.001089583
# x           0.29960652  1.0954521888 1.918622442

lapply(seq_along(taus), function(i) abline(coef(fit_rq)[, i], lwd = 2, lty = 2, col = "red"))

其它你可能感兴趣的问题

上一篇逐步回归技术会增加模型的预测能力吗？下一篇为什么 glmnet 使用坐标下降进行岭回归？