我希望得到一个直观、易于理解的分位数回归解释。
假设我有一个简单的结果数据集和预测变量。
例如,如果我在 .25,.5,.75 处运行分位数回归,并返回。
是否值进行排序并基于位于/接近给定分位数的示例执行线性回归来
还是所有样本都对估计有贡献,随着与分位数距离的增加,权重下降?
还是完全不同的东西?我还没有找到一个易于理解的解释。
我希望得到一个直观、易于理解的分位数回归解释。
假设我有一个简单的结果数据集和预测变量。
例如,如果我在 .25,.5,.75 处运行分位数回归,并返回。
是否值进行排序并基于位于/接近给定分位数的示例执行线性回归来
还是所有样本都对估计有贡献,随着与分位数距离的增加,权重下降?
还是完全不同的东西?我还没有找到一个易于理解的解释。
我推荐Koenker & Hallock (2001, Journal of Economic Perspectives)和 Koenker 的教科书Quantile Regression。
所以你的直觉是非常正确的:所有的样本都有助于估计,不对称的权重取决于我们目标的分位数。
分位数回归的基本思想来自分析师对数据分布感兴趣的事实,而不仅仅是数据的平均值。让我们从平均值开始。
形式的线拟合到数据的均值。换句话说,。估计这条线的一般方法是使用最小二乘法。
另一方面,中值回归寻找一条预期一半数据在边上的线。在这种情况下,目标函数是在哪里是第一规范。
将中位数的概念扩展到分位数会导致分位数回归。背后的想法是找到一条线,使 -percent 的数据超出此范围。
在这里你犯了一个小错误,Q 回归不像找到一个分位数的数据然后将一条线拟合到该子集(甚至是更具挑战性的边界)。
Q-regression 寻找一条线,将数据分成一个 qroup 一个分位数和其余部分。目标函数,表示 Q 回归的校验函数是
如您所见,这个聪明的目标函数只不过是将分位数转换为优化问题。
此外,如您所见,Q-regression 是为某个量 ( ) 定义的,然后可以扩展以找到所有分位数。换句话说,Q 回归可以再现(条件)响应分布。