线性回归相对于分位数回归有什么优势?
经常说最小化最小二乘残差优于最小化绝对残差,因为它在计算上更简单。但是,由于其他原因,它也可能更好。也就是说,如果假设是正确的(这并不少见),那么它提供的解决方案(平均而言)更准确。
最大似然
最小二乘回归和分位数回归(当通过最小化绝对残差执行时)可以被视为最大化高斯/拉普拉斯分布误差的似然函数,并且在这个意义上非常相关。
高斯分布:
在最小化残差平方和时最大化对数似然
拉普拉斯分布:
当最小化绝对残差之和时,对数似然最大化
注意:拉普拉斯分布和绝对残差之和与中位数有关,但可以通过对负残差和正残差赋予不同的权重,将其推广到其他分位数。
已知误差分布
当我们知道误差分布(假设可能为真)时,选择相关的似然函数是有意义的。最小化该功能是更优化的。
很多时候,错误是(大约)正态分布的。在这种情况下,使用最小二乘法是找到参数的最佳方法(这与平均值和中位数有关)。这是最好的方法,因为它具有最低的样本方差(所有无偏估计量中最低的)。或者您可以更强烈地说:它是随机占主导地位的(参见本问题中比较样本中位数和样本均值分布的插图)。
因此,当误差呈正态分布时,样本均值是比样本中位数更好的分布中位数估计量。最小二乘回归是分位数的更优估计。它比使用绝对残差的最小和要好。
因为很多问题都涉及正态分布的误差,所以最小二乘法的使用非常流行。要使用其他类型的分布,可以使用广义线性模型。而且,可用于求解 GLM 的迭代最小二乘法也适用于拉普拉斯分布(即绝对偏差),这相当于找到中位数(或在广义版本中为其他分位数)。
未知错误分布
鲁棒性
中位数或其他分位数的优点是它们在分布类型方面非常稳健。实际值无关紧要,分位数只关心顺序。因此,无论分布是什么,最小化绝对残差(相当于找到分位数)都非常有效。
这个问题在这里变得复杂而广泛,它取决于我们对分布函数有或没有什么类型的知识。例如,分布可能近似正态分布,但只有一些额外的异常值。这可以通过删除外部值来解决。这种极值的去除甚至可以用于估计柯西分布的位置参数,其中截断的平均值可能是比中位数更好的估计量。因此,不仅对于假设成立的理想情况,而且对于一些不太理想的应用程序(例如额外的异常值),可能仍然有很好的鲁棒方法仍然使用某种形式的残差平方和而不是绝对残差之和。
我想带有截断残差的回归在计算上可能要复杂得多。所以它实际上可能是分位数回归,它是执行的回归类型,因为它在计算上更简单(不比普通最小二乘法简单,但比截断最小二乘法更简单)。
有偏见/无偏见
另一个问题是有偏估计与无偏估计。在上面我描述了平均值的最大似然估计,即最小二乘解,作为一个好的或优选的估计量,因为它通常具有所有无偏估计量的最低方差(当误差是正态分布时)。但是,有偏差的估计器可能更好(期望的误差平方和更低)。
这使问题再次变得广泛而复杂。有许多不同的估计器和许多不同的情况来应用它们。使用经过调整的残差平方和损失函数通常可以很好地减少误差(例如各种正则化方法),但它可能不需要对所有情况都有效。直观地想象,由于残差平方和损失函数通常适用于所有无偏估计器,因此最佳有偏估计器可能接近残差平方和损失函数的总和并不奇怪。
线性回归 (LR) 在计算其系数时归结为最小二乘优化。这意味着与回归模型的偏差存在对称性。https://data.library.virginia.edu/getting-started-with-quantile-regression/中对分位数回归 (QR) 进行了很好的解释。
如果满足 LR 假设(推理所需:p 值、置信区间等),则 QR 和 LR 预测将相似。但是如果这些假设被强烈违反,你的标准 LR 推理将是错误的。因此,0.5 分位数(中位数)回归比 LR 更具优势。它还为其他分位数提供回归提供了更大的灵活性。线性模型的等价物是从 LR 计算的置信界限(尽管如果 iid 被严重违反,这将是错误的)。
那么LR有什么优势呢?当然它更容易计算,但如果您的数据集大小合理,可能不会很明显。但更重要的是,LR 推理假设提供了降低不确定性的信息。因此,预测的 LR 置信区间通常会更窄。因此,如果假设有强有力的理论支持,那么更窄的置信区间可能是一个优势。
线性回归用于估计给定数据的条件平均响应,即在哪里是响应和是数据。回归告诉我们. 有某些假设(您可以在任何统计文本中找到它们)推理是有效的。如果这些都满足,那么通常标准估计是蓝色(最佳线性无偏估计量——参见高斯-马尔可夫定理)。
分位数回归可用于估计条件分布的任何分位数,包括中位数。这可能提供比有关条件分布的平均值更多的信息。如果条件分布不对称或尾部可能很粗(例如风险分析),即使满足线性回归的所有假设,分位数回归也是有帮助的。
当然,相对于线性回归,进行分位数估计在数值上更加密集,但它通常更加稳健(例如,就像中位数比对异常值的平均值更稳健一样)。此外,当线性回归不适用时,它是合适的——例如,对于删失数据。推断可能更棘手,因为方差-协方差矩阵的直接估计可能很困难或计算量很大。在这些情况下,可以引导。