在回归分析中,如何知道将哪种转换应用于响应变量或特征?
我猜看数据图会给人一个想法,但我不完全确定
在回归分析中,如何知道将哪种转换应用于响应变量或特征?
我猜看数据图会给人一个想法,但我不完全确定
考虑 OLS 回归的情况:
其中是您的响应变量,是截距,是您的自变量(即预测变量),到是与每个自变量相关的斜率系数,代表您的残差,是表示每个自变量的索引行观察。
通常,在拟合 OLS 模型后,会生成残差图以直观地检查残差的分布。这通常通过绘制残差与拟合值来完成。在视觉上,残差应该显示恒定的方差(这称为同方差),而不是形成模式(称为异方差)。异方差是有问题的,因为它意味着模型的某些部分被预测为具有不同程度的误差。其负面后果与参数标准误差、p 值和置信区间的错误估计有关。因此,您正确说明每个变量是否具有统计显着性的能力会受到影响。请注意,在异方差下,您的斜率可能仍然是无偏的:只是你无法自信地说它们是否具有统计意义。
现在有很多方法可以处理这个问题,例如,使用异方差稳健标准误差或转换。让我们评论后者以保持正轨。转换和/或变量可以作为使残差图(更多)同方差的补救措施。
一种识别转换的灵活方法属于 Box-Cox (Box & Cox, 1964)和 Box-Tidwell (Box & Tidwell, 1962)技术的主题。您可以轻松计算R
(Fox, 2002; Faraway, 2005) 中的那些。如果您非常感兴趣,Hutcheson 和 Sofroniou (1999) 中介绍了两者的手动计算。Box-Cox 方法建议对响应变量 (DV) 进行转换,Box-Tidwell 过程建议对预测变量 (IV) 进行转换。
一种策略是从单一类型的转换开始。例如,转换为响应变量 (DV)。这可以通过使用函数MASS package
来完成。这将产生对数似然与(幂变换)的关系图。然后,例如,该图可以建议 3 的幂变换,95% 的置信区间介于 2.5 和 3.75 之间。因此,我们将响应变量从转换为。R
boxcox
接下来,评估残差图并检查这是否导致改进。例如,您的残差图变得不那么具有异方差性,但可能仍有改进的余地。在这种情况下,我们可以进一步尝试对独立预测变量进行额外的转换。这可以通过前面提到的 Box-Tidwell 变换来完成,方法是使用in中的boxTidwell
函数 。在这里,我们可能会建议您的 IV 应提高到例如的幂。因此,您将添加此转换并最终得到一些模型,例如
。因此,然后您评估拟合度,并希望异方差问题得到解决或显着改善。car package
R
警告:根据现实生活的经验,我可以向您保证,转换并不总是有效。因此,它们并不总是一种神奇的治疗方法,如果时间对您来说至关重要,您可以考虑使用异方差稳健标准误。然而,这本身就是一个不同的话题
感谢@IsabellaGhement,他正确地指出,除了改进模型异方差性(非常量方差)之外,幂变换也可能是违反线性和正态性的有用解决方案。
Box, GEP 和 Cox, DR (1964)。转换分析。皇家统计学会杂志:B 系列(方法论),26(2), 211-243。
Box, GEP 和 Tidwell, PW (1962)。自变量的变换。技术计量学,4(4), 531-550。
福克斯,J. (2002)。应用回归的 R 和 S-PLUS 伴侣。Sage Publications,千橡市,加利福尼亚州。
遥远,JJ(2005 年)。用 r 扩展线性模型(统计科学文本)。
Hutcheson, GD 和 Sofroniou, N. (1999)。多元社会科学家:使用广义线性模型的介绍性统计。伦敦:圣人。
如果您唯一的工具是 OLS 回归,那么您可以使用 Box-Cox 等方法。在过去,这在实践中是正确的,因为计算机(首先)不可用,并且(后来)没有那么强大或快速。
但是,如今,我们拥有非常强大的计算机和方法,可以实现除 OLS 之外的许多方法,特别是分位数回归和各种稳健回归。这些不对错误/残差的分布做出假设,这是大多数转换试图解决的问题。
因此,我会说您应该在适合您的实质性目的时转换变量。例如,对于与金钱相关的变量(收入、支出、销售额等),记录日志通常是有意义的。
Mosteller 和 Tukey (1977)提出了他们的膨胀规则,建议基于观察未转换关系的形状进行转换(X 或 Y)。
Mosteller 和 Tukey 建议查看未转换的 X 和 Y 的图,将您看到的曲线与图中的四个象限曲线之一匹配,并应用指示的转换,将 X 或 Y(或两者)取为更高的功率或降低功率。这里,“高次幂”是指平方或立方,而“低次幂”包括对数、倒数、平方反比等。
您也可以将其视为调整 X 或 Y 的轴,从而使弯曲的关系更直。较高的功率变换会拉伸轴,而较低的功率变换会压缩轴。
正如科恩等人。(2003)指出,转换 Y 可以解决多个问题,包括残差的异质性,因此这可能是首选。但也要考虑如何向客户解释结果。应用于模型中的一个预测变量的转换可能比应用于结果变量的转换需要更少的解释。然后是约定——如果您可以通过应用其他人都使用过的相同转换或通过做不同的事情来解决问题,那么如果您遵循约定,生活可能会更轻松。
参考:
Cohen, J.、Cohen, P.、West, SG 和 Aiken, LS (2003)。对社会科学应用多重相关/回归分析。
Mosteller, F. 和 Tukey, JW (1977)。数据分析和回归:统计学的第二门课程。Addison-Wesley 行为科学系列:定量方法。