分位数回归如何“工作”?

机器算法验证 分位数回归
2022-01-29 06:41:00

我希望得到一个直观、易于理解的分位数回归解释。

假设我有一个简单的结果数据集和预测变量YX1,X2

例如,如果我在 .25,.5,.75 处运行分位数回归,并返回β0,.25,β1,.25...β2,.75

是否值进行排序并基于位于/接近给定分位数的示例执行线性回归来βy

还是所有样本都对估计有贡献,随着与分位数距离的增加,权重下降?β

还是完全不同的东西?我还没有找到一个易于理解的解释。

2个回答

我推荐Koenker & Hallock (2001, Journal of Economic Perspectives)和 Koenker 的教科书Quantile Regression

  1. 起点是观察到数据集的中位数使绝对误差之和最小化也就是说,50% 分位数是特定优化问题的解决方案(以找到使绝对误差之和最小化的值)。
  2. 由此,很容易发现任何 -分位数都是特定最小化问题的解决方案,即最小化不对称加权绝对误差的总和,权重取决于ττ
  3. 最后,为了进行回归,我们将这个最小化问题的解决方案建模为预测变量的线性组合,所以现在的问题不是找到单个值,而是找到一组回归参数。

所以你的直觉是非常正确的:所有的样本都有助于估计,不对称的权重取决于我们目标的分位数βτ

分位数回归的基本思想来自分析师对数据分布感兴趣的事实,而不仅仅是数据的平均值。让我们从平均值开始。

形式的线拟合到数据的均值。换句话说,估计这条线的一般方法是使用最小二乘法y=XβE(Y|X=x)=xβargminβ(yxβ)(yXβ)

另一方面,中值回归寻找一条预期一半数据在边上的线。在这种情况下,目标函数是在哪里是第一规范。argminβ|yXβ||.|

将中位数的概念扩展到分位数会导致分位数回归。背后的想法是找到一条线,使 -percent 的数据超出此范围。α

在这里你犯了一个小错误,Q 回归不像找到一个分位数的数据然后将一条线拟合到该子集(甚至是更具挑战性的边界)。

Q-regression 寻找一条线,将数据分成一个 qroup 一个分位数和其余部分。目标函数,表示 Q 回归的校验函数是 α

β^α=argminβ{α|yXβ|I(y>Xβ)+(1α)|yXβ|I(y<Xβ)}.

如您所见,这个聪明的目标函数只不过是将分位数转换为优化问题。

此外,如您所见,Q-regression 是为某个量 ( ) 定义的,然后可以扩展以找到所有分位数。换句话说,Q 回归可以再现(条件)响应分布。βα