机器算法验证 - 条件分位数回归和无条件分位数回归有什么区别？ - 吾爱随笔录

条件分位数回归和无条件分位数回归有什么区别？

机器算法验证分位数回归

2022-02-12 12:39:00

Koenker 和 Basset (1978) 的条件分位数回归估计器 $\tau^{th}$ 分位数定义为

{\hat{β}}_{Q R} = min_{b} \sum_{i = 1}^{n} ρ_{τ} (y_{i} - X_{i}^{'} b_{τ})

$\widehat{\beta}_{QR} = \min_{b} \sum^{n}_{i=1} \rho_\tau (y_i - X'_i b_\tau)$ 其中

ρ_{τ} = u_{i} \cdot (τ - 1 (u_{i} < 0))

$\rho_\tau = u_i\cdot (\tau - 1(u_i<0))$ 是残差

u_{i}

$u_i$ 的重新加权函数（称为“检查”函数）。

在Firpo 等人的论文中。（2009 年），作者指出条件分位数回归不会产生有趣的效果。他们说条件结果不能推广到总体（在 OLS 中，我们总是可以通过迭代期望定律从有条件变为无条件，但这不适用于分位数）。这是因为 $\tau^{th}$ 无条件分位数 $y_i$ 可能与 $\tau^{th}$ 条件分位数 $y_i |X_i$ 。

如果我理解正确，部分问题是 $X_i$ 中包含哪些协变量会对排名变量 $u_i$ 产生影响，因为包含协变量会将错误分成观察到的和未观察到的分量。我只是不太明白为什么这会导致问题。

以下是我的问题：

是什么让有条件和无条件分位数效应彼此不同？
如何解释条件分位数回归的系数？
条件分位数回归是否有偏差？

参考：

Koenker, R., & Bassett, G. (1978) “回归分位数”，计量经济学，卷。46(1)，第 33-50 页。
Firpo, S. 等人。(2009) “无条件分位数回归”，计量经济学，卷。77(3)，第 953-973 页。

2个回答

设置
假设您有一个形式为的简单回归，其中结果是个人的对数收入，是受教育年数，是错误术语。您不仅要查看通过 OLS 获得的教育对收入的平均影响，还希望查看结果分布的不同部分的影响。

\ln y_{i} = α + β S_{i} + ϵ_{i}

$\ln y_i = \alpha + \beta S_i + \epsilon_i$

i

$i$

S_{i}

$S_i$

ϵ_{i}

$\epsilon_i$

1）有条件和无条件设置有什么区别
首先绘制对数收益，让我们选择两个人，和，其中在无条件收益分布的下部，在上部。 $A$ $B$ $A$ $B$ 在此处输入图像描述

它看起来不太正常，但那是因为我在模拟中只使用了 200 个观察值，所以不要介意。现在，如果我们以受教育年限为条件，会发生什么？对于每个教育级别，您将获得一个“有条件的”收入分配，即您将得出一个如上所述的密度图，但每个教育级别是分开的。

在此处输入图像描述

两条深蓝色线是中位数（下线）和第 90 个百分位数（上线）的线性分位数回归的预测收益。5 年和 15 年教育的红色密度为您提供了条件收入分配的估计值。如您所见，个人有 5 年的教育，个人有 15 年的教育。显然，个人在 5 年教育阶段的梨中表现相当不错，因此她处于第 90 个百分位。 $A$ $B$ $A$

因此，一旦您以另一个变量为条件，现在已经发生了一个人现在处于条件分布的顶部，而该人将处于无条件分布的下部 - 这就是改变分位数回归系数解释的原因. 为什么？

您已经说过，使用 OLS，我们可以通过应用迭代期望定律从出发，但是，这是期望运算符的属性，不适用于分位数（不幸的是！）。因此，一般来说，在任何分位数。这可以通过首先执行条件分位数回归然后整合条件变量来解决，以获得可以解释为 OLS 的边缘化效应（无条件效应）。Powell (2014)提供了这种方法的一个示例。 $E[y_i|S_i] = E[y_i]$ $Q_{\tau}(y_i|S_i) \neq Q_{\tau}(y_i)$ $\tau$

2）如何解释分位数回归系数？
这是棘手的部分，我并没有声称拥有世界上所有关于这方面的知识，所以也许有人对此提出了更好的解释。如您所见，无论您考虑有条件分配还是无条件分配，个人在收益分配中的排名可能会非常不同。

对于条件分位数回归
由于您无法判断个体在治疗前后在结果分布中的位置，因此您只能对整个分布进行陈述。例如，在上面的例子中，意味着额外一年的教育会增加有条件收入分配的第 90 个百分位数的收入（但你不知道在你之前谁还在那个分位数分配给人们额外一年的教育）。这就是为什么条件分位数估计或条件分位数处理效果通常不被认为是“有趣的”。通常我们想知道治疗如何影响我们手头的个人，而不仅仅是分布。 $\beta_{90} = 0.13$

对于无条件分位数回归
这些就像您用来解释的 OLS 系数。这里的困难不是解释，而是如何获得那些并不总是容易的系数（积分可能不起作用，例如，对于非常稀疏的数据）。可以使用其他边缘化分位数回归系数的方法，例如 Firpo (2009) 使用中心化影响函数的方法。Angrist 和 Pischke（2009 年）在评论中提到的书指出，分位数回归系数的边缘化仍然是计量经济学中一个活跃的研究领域——尽管据我所知，现在大多数人都接受积分方法（一个例子是Melly 和 Santangelo (2015)将其应用于 Changes-in-Changes 模型）。

3）条件分位数回归系数是否有偏差？ 不（假设您有一个正确指定的模型），它们只是测量您可能感兴趣或可能不感兴趣的不同事物。正如我所说，估计对分布而不是个人的影响不是很有趣 - 大多数时候。举一个反例：考虑一个政策制定者，他引入了额外的一年义务教育，他们想知道这是否会减少人口中的收入不平等。

前两个面板显示了一个纯粹的位置偏移，其中在所有分位数上都是一个常数，即一个常数分位数处理效果，这意味着如果，额外一年的教育在整个收入分配中增加了 8% 的收入。 $\beta_{\tau}$ $\beta_{10} = \beta_{90} = 0.8$

当分位数处理效果不是恒定的（如底部两个面板中）时，除了位置效果外，您还具有比例效果。在这个例子中，收入分布的底部向上移动的幅度大于顶部，因此人口中 90-10 的差异（收入不平等的标准衡量标准）减少了。在此处输入图像描述

您不知道哪些人从中受益，也不知道从底部开始的人在分布的哪个部分（要回答这个问题，您需要无条件的分位数回归系数）。也许这项政策会伤害他们并使他们相对于其他人处于更低的位置，但如果目的是了解额外一年的义务教育是否会减少收入分布，那么这将是有益的。这种方法的一个例子是Brunello 等人。（2009 年）。

如果您仍然对由于内生性来源而导致的分位数回归的偏差感兴趣，请查看Angrist 等人 (2006)，他们在其中推导出了分位数上下文的省略变量偏差公式。

除了@Andy 提供的出色答案。您可能想查看：

Borah, BJ 和 Basu, A. (2013)。“通过应用程序来评估药物依从性，突出条件和无条件分位数回归方法之间的差异。” 卫生经济学，22（9），1052-1070。http://doi.org/10.1002/hec.2927

其它你可能感兴趣的问题

上一篇池化层是在 dropout 层之前还是之后添加的？下一篇如何解释 R 中 lm 对象的摘要方法的输出？