每个解释变量和因变量之间的线性关系也将确保解释变量之间的线性关系。反过来当然不是真的。
确实,旨在提供近似线性的变换会增加共线性。然而,在没有这种转换的情况下,共线性是隐藏的。坚持隐藏这样的共线性可能会导致一个复杂且无法解释的回归方程,其中有一个简单的方程形式可用。
假设它y
接近于 的线性函数log(x1)
,在x
范围超过 10 倍或更多的值的情况下。然后 ifx
用作回归量,如果可能的话,将调用其他解释变量来解释与 x1 关系中的非线性。结果可能是一个非常复杂的回归关系,具有无法解释的系数,而不是一个简单形式的回归方程,它可以捕获所有可用的解释能力。
最近的一篇论文很好地说明了未能找到和处理线性相关变量可能导致的奇怪后果,该论文声称在 1950-2012 年登陆美国的 94 次大西洋飓风造成的死亡数据中存在飓风名称效应的女性特征。见http://www.pnas.org/content/111/24/8782.abstract。这些数据作为补充信息的一部分提供。请注意,log(deaths)
使用正态理论线性模型(R 函数lm()
)大致相当于 Jung 等人使用负二项式回归模型。
如果回归log(E[deaths])
,log(NDAM)
则没有什么可以解释最小压力变量、女性变量和相互作用。变量log(NDAM)
, not NDAM
,在散点图矩阵中显示为与最小压力变量线性相关。它的分布也更少偏斜,更接近对称。
Jung 等人log(E[deaths])
对NDAM
(标准化损伤)以及其他变量和相互作用进行了回归。然后出现的方程式被用来讲述一个故事,其中名字的女性性有很大的影响。
要了解在结果变量为plot或againstNDAM
的回归中用作解释变量是多么奇怪。然后用代替重复情节。如果将 Jung 等人作为异常值省略的卡特里娜飓风和奥黛丽纳入情节中,则对比会更加显着。通过坚持使用而不是作为解释变量,Jung 等人放弃了寻找一种非常简单的回归关系形式的机会。log(E[deaths])
log(deaths+0.5)
log(deaths+1)
NDAM
log(NDAM)
NDAM
NDAM
log(NDAM)
NB 即E[deaths]
模型预测的死亡人数。
在 Jung 等人的数据中,可以从所有变量的散点图矩阵中确定所需的转换。尝试spm()
使用最新版本的 R 的 car 包中的 R 函数,使用transform=TRUE
and (with deaths
as a variable) family="yjPower"
。或者尝试初始散点图矩阵建议的转换。一般来说,首选的建议可能是首先寻找满足线性预测变量要求的解释变量,然后关注结果变量,可能使用 car 函数invTranPlot()
。
除了提问者引用的“使用 R 的数据分析和图形”之外,请参阅:
- Weisberg:应用线性回归。第 4 版,Wiley 2014,第 185-203 页。
- Fox 和 Weisberg:应用回归的 R 伴侣。第 2 版,Sage,2011 年,第 127-148 页。