除了一些我们绝对必须了解条件均值关系的特殊情况外,在哪些情况下研究人员应该选择 OLS 而不是分位数回归?
我不希望答案是“如果理解尾部关系没有用”,因为我们可以只使用中值回归作为 OLS 替代品。
除了一些我们绝对必须了解条件均值关系的特殊情况外,在哪些情况下研究人员应该选择 OLS 而不是分位数回归?
我不希望答案是“如果理解尾部关系没有用”,因为我们可以只使用中值回归作为 OLS 替代品。
如果您对平均值感兴趣,请使用 OLS,如果您对中位数感兴趣,请使用分位数。
一个很大的区别是平均值受异常值和其他极端数据的影响更大。有时,这就是你想要的。一个例子是,如果您的因变量是社区的社会资本。一个拥有大量社会资本的人的存在可能对整个社区非常重要。
问题的前提似乎有一个混乱。在第二段中它说,“我们可以只使用中值回归作为 OLS 替代品”。请注意,回归 X 上的条件中位数是(一种)分位数回归。
如果基础数据生成过程中的误差呈正态分布(可以通过检查残差是否正常来评估),则条件均值等于条件中位数。此外,您可能感兴趣的任何分位数(例如,第 95 个百分位数或第 37 个百分位数)都可以使用标准 OLS 方法为 X 维中的给定点确定。分位数回归的主要吸引力在于它比 OLS 更稳健。不利的一面是,如果满足所有假设,效率会降低(也就是说,您将需要更大的样本量才能获得相同的功效/您的估计会不太精确)。
OLS 和分位数回归 (QR) 都是用于估计线性回归模型 的估计技术 (关于 QR 的情况,请参阅 Koenker (1978), p. 33, 第二段) .
对于某些错误分布(例如那些带有重尾的),QR 估计器比 OLS 估计器更有效;回想一下仅在线性无偏估计器类中是有效的。这是 Koenker (1978) 建议在各种设置下使用 QR 代替 OLS 的主要动机。我认为对于条件分布的任何时刻, 我们都应该使用更有效的和之一(如果我错了,请纠正我) .
现在直接回答你的问题,当更有效时,QR 比 OLS“更糟糕”(因此应该优于。一个这样的例子是当误差分布为正态时。
参考:
要说上面的一些优秀回答,但方式略有不同,分位数回归做出的假设更少。在模型的右侧,假设与 OLS 相同,但在左侧,唯一的假设是分布的连续性(很少联系)。可以说,如果残差分布是对称的(因此中位数=均值),并且在对称和不太重的尾部(特别是在正态下),OLS 提供了中位数的估计值,OLS 优于分位数回归估计中位数,因为精度要好得多。如果模型中只有一个截距,则分位数回归估计正好是样本中位数,其效率为与平均值相比,在正常情况下。给定均方根误差(残差 SD)的良好估计,您可以使用 OLS 参数化估计任何分位数。但是来自 OLS 的分位数估计是假设负载的,这就是我们经常使用分位数回归的原因。
如果要估计均值,则无法从分位数回归中得到。
如果您想用最少的假设(但比分位数回归更多的假设)估计平均值和分位数但效率更高,请使用半参数序数回归。这也为您提供了超出概率。我的RMS 课程笔记中有一个详细的案例研究,其中显示在一个数据集上,多个参数(分位数和平均值)的平均平均绝对估计误差是通过序数回归实现的。但是对于仅估计平均值,OLS 是最好的,而对于仅估计分位数,分位数回归是最好的。
序数回归的另一大优点是,除了估计均值外,它完全-变换不变。