多元线性回归估计的反向转换和解释日志( X+ 1 )log⁡(X+1)

机器算法验证 数据转换 对数
2022-04-02 18:09:47

我已经使用转换和未转换变量的不同组合进行了多重线性回归分析 - 解释(独立)和响应(因)变量。所有转换都是log10(X+1),这似乎符合/更好地符合正态性假设。此外,我将指标(虚拟)响应变量作为解释变量。我试图弄清楚如何解释回归估计,所以如果有人能指出我关于这方面的一个很好的基于网络的信息来源,和/或回答下面的问题,我将非常感激。提前致谢。

我想知道:

反向转换时——我是从回归估计中减去常数 (1)(在将 10 提高到估计的幂之后),还是仅在报告 Y 的平均值/中值时?换句话说,就报告解释变量的回归估计值而言,将常数添加到响应变量(对数转换之前)是否重要?

如果转换了解释变量,我什么时候从解释变量中减去常数?

此外,例如,在为经过对数转换 (x+1) 的响应变量构建回归模型后,我的指标(解释性)变量估计值为:

Estimate: 0.008
SE0: 0.007
t: 1.110
P: 0.2660   

95% 置信区间(在 log10 范围内)为 -0.0059 至 0.0213。我进行了反向转换并得到:估计为 1.017871372(95% CI 从 0.9865 到 1.05)。我将此解释为“在 INDICATOR 变量位点的响应变量的中值 Rel Abnd(大约为 0.04)是 INDICATOR 变量不存在的位点的 Rel Abund 中值的 1.0179 倍(95% CI = 0.9865 到 1.05),在考虑到其他因素”。

如果有人可以让我知道我是否走在正确的轨道上,或者如何走上正确的轨道,那就太好了。

2个回答

根据 Wooldridge 2009 (p. 192),log(1 + x)转换可能保留对 的通常解释log(x)

在变量为非负但可以取值 0 的情况下,有时使用开始的变化(甚至没有定义百分比变化),百分比变化的解释通常被密切保留。通常,当数据包含相对较少的零时然后将估计值解释为变量为ylog(1+y)y=0log(1+y)log(y)

我怀疑这延伸到log2log10基础。

也可以看看:

对于对于远小于或远大于 1 时,您可以使用这些方程来进行解释。0<x1log(1+x)xx1log(1+x)log(x)x

附带说明:在对数据应用转换时,您应该较少关注 X 和 Y 在分布中的正态性,而应更多地关注回归公式所暗示的 XY 函数关系。具体来说,使用散点图和其他诊断来查看拟合曲线是否与数据中的实际 XY 关系一致。如果您使用稳健的经验分析方法(如 bootstrap),正态性就不那么重要了。