我在 WLS 回归的过程中有点迷茫。我得到了数据集,我的任务是测试是否存在异方差,如果有,我应该运行 WLS 回归。
我已经进行了测试并找到了异方差的证据,所以我需要运行 WLS。有人告诉我 WLS 基本上是转换模型的 OLS 回归,但我对找到转换函数有点困惑。我读过一些文章,其中建议转换可以是 OLS 回归的平方残差的函数,但如果有人能帮助我走上正确的轨道,我将不胜感激。
我在 WLS 回归的过程中有点迷茫。我得到了数据集,我的任务是测试是否存在异方差,如果有,我应该运行 WLS 回归。
我已经进行了测试并找到了异方差的证据,所以我需要运行 WLS。有人告诉我 WLS 基本上是转换模型的 OLS 回归,但我对找到转换函数有点困惑。我读过一些文章,其中建议转换可以是 OLS 回归的平方残差的函数,但如果有人能帮助我走上正确的轨道,我将不胜感激。
加权最小二乘 (WLS) 回归不是转换模型。相反,您只是将每个观察结果或多或少地视为有关和之间潜在关系的信息。那些信息量大的点被赋予更多的“权重”,而那些信息量少的点被赋予较少的权重。您是对的,加权最小二乘 (WLS) 回归在技术上仅在权重已知的情况下才有效。
但是,(OLS)线性回归对异方差性相当稳健,因此,如果您的估计在大致范围内,WLS 也是如此。OLS 回归的一个经验法则是,只要最大方差不大于最小方差的 4 倍,它就不会受到异方差的太大影响。例如,如果残差/误差的方差随增加,那么如果高端残差的方差小于低端残差方差的四倍,则可以。这意味着,如果您的体重使您处于该范围内,那么您是相当安全的。有点像马蹄铁和手榴弹情况。因此,您可以尝试估计将残差的方差与预测变量的水平相关联的函数。
关于如何进行这种估计有几个问题:
请记住,权重应该是方差的倒数(或您使用的任何内容)。
的离散水平上,例如在实验或方差分析中,那么您可以直接估计的每个水平的方差并使用它。如果估计值是连续变量的离散水平(例如,0 毫克、10 毫克、20 毫克等),您可能想要平滑这些,但它可能不会有太大的区别。
但是,由于平方,方差估计很容易受到异常值和/或高杠杆点的影响。上分布不均匀,或者您的数据相对较少,则不建议直接估计方差。最好估计一些预期与方差相关但更稳健的东西。一个常见的选择是使用与条件均值的偏差的绝对值的平方根。(例如,在 R 中,将显示这些对的散点图,称为“传播水平图”,以帮助您诊断潜在的异方差性;请参阅我的答案here。)更强大的可能是使用条件四分位数范围,或有条件的plot(model, which=2)
中位数与中位数的绝对偏差。
如果是一个连续变量,典型的策略是使用简单的 OLS 回归来获得残差,然后将 [ 3 ] 中的一个函数(很可能是根绝对偏差)回归到上。该函数的预测值用于与该点关联的权重。
从 OLS 回归的残差中获取权重是合理的,因为 OLS 是无偏的,即使存在异方差。尽管如此,这些权重取决于原始模型,并且可能会改变后续 WLS 模型的拟合。因此,您应该通过比较两个回归的估计 beta 来检查您的结果。如果它们非常相似,你就可以了。如果 WLS 系数与 OLS 系数不同,则应使用 WLS 估计值手动计算残差(WLS 拟合报告的残差将考虑权重)。计算出一组新的残差后,再次确定权重并在第二次 WLS 回归中使用新的权重。应该重复这个过程,直到两组估计的 beta 足够相似(即使这样做一次也不常见)。
如果这个过程让你有些不舒服,因为权重是估计的,并且因为它们取决于早期的不正确模型,另一个选择是使用Huber-White 'sandwich' 估计器。即使存在异方差性,无论多么严重,这也是一致的,并且不取决于模型。它也可能减少麻烦。
我在这里的回答中演示了加权最小二乘法的简单版本和三明治 SE 的使用:Alternatives to one-way ANOVA for heteroscedastic data。
执行 WLS 时,您需要知道权重。如Douglas C. Montgomery、Elizabeth A. Peck、G. Geoffrey Vining的线性回归分析介绍第 191 页所述,有一些方法可以找到它们。例如: