我想知道是否只有依赖变量,依赖变量和独立变量,或者只有自变量被对数转换,这是否会在解释上有所不同。
考虑的情况
log(DV) = Intercept + B1*IV + Error
我可以将 IV 解释为增加百分比,但是当我有
log(DV) = Intercept + B1*log(IV) + Error
或者当我有
DV = Intercept + B1*log(IV) + Error
?
我想知道是否只有依赖变量,依赖变量和独立变量,或者只有自变量被对数转换,这是否会在解释上有所不同。
考虑的情况
log(DV) = Intercept + B1*IV + Error
我可以将 IV 解释为增加百分比,但是当我有
log(DV) = Intercept + B1*log(IV) + Error
或者当我有
DV = Intercept + B1*log(IV) + Error
?
查理提供了一个很好、正确的解释。加州大学洛杉矶分校的统计计算站点还有一些示例: https ://stats.oarc.ucla.edu/sas/faq/how-can-i-interpret-log-transformed-variables-in-terms-of-percent-change -in-linear-regression和 https://stats.oarc.ucla.edu/other/mult-pkg/faq/general/faqhow-do-i-interpret-a-regression-model-when-some-variables-对数转换
只是为了补充查理的回答,以下是对您的示例的具体解释。与往常一样,系数解释假设您可以捍卫您的模型,回归诊断令人满意,并且数据来自有效研究。
示例 A:无转换
DV = Intercept + B1 * IV + Error
“IV 增加一个单位与B1
DV 增加 ( ) 个单位相关。”
示例 B:结果转化
log(DV) = Intercept + B1 * IV + Error
“IV 增加一个单位与B1 * 100
DV 增加 ( )% 相关。”
示例 C:曝光转换
DV = Intercept + B1 * log(IV) + Error
“IV 增加 1% 与B1 / 100
DV 增加 ( ) 个单位有关。”
示例 D:结果转换和暴露转换
log(DV) = Intercept + B1 * log(IV) + Error
“IV 增加 1% 与B1
DV 增加 ( )% 相关。”
在 log-log- 模型中,看到
利用这个事实,我们可以解释作为百分比变化对于 1% 的变化.
遵循相同的逻辑,对于 level-log 模型,我们有
线性回归的主要目的是估计比较回归量的相邻水平的结果的平均差异。手段有很多种。我们最熟悉算术平均值。
AM 是使用 OLS 和未转换变量估计的值。几何平均值不同:
实际上,GM 差异是乘法差异:您在承担贷款时支付 X% 的溢价利息,开始使用二甲双胍后您的血红蛋白水平降低 X%,弹簧的故障率增加 X% 作为宽度的一部分。在所有这些情况下,原始均值差异的意义不大。
对数变换估计几何平均差。如果您对结果进行对数转换并使用以下公式规范在线性回归中对其建模:log(y) ~ x
,系数是比较相邻单位的对数结果的平均差. 这实际上是无用的,所以我们对参数取幂并将此值解释为几何平均差。
例如,在 ART 给药 10 周后的 HIV 病毒载量研究中,我们可能会估计. 这意味着无论基线时的病毒载量如何,在随访中平均降低 60%或降低 0.6 倍。如果负载在基线时为 10,000,我的模型将预测它在跟进时为 4,000,如果它在基线时为 1,000,我的模型将预测它在跟进时为 400(原始规模的差异较小,但比例相同)。
这是与其他答案的一个重要区别:将对数尺度系数乘以 100 的约定来自近似值什么时候是小。如果系数(在对数尺度上)是 0.05,那么并且解释是:结果中“增加” 1 个单位“增加” 5%. 但是,如果系数为 0.5,则我们将其解释为 65% 的“增加” 对于 1 个单位的“增加”. 这不是 50% 的增长。
假设我们对一个预测变量进行 log 变换:y ~ log(x, base=2)
。在这里,我对乘法变化感兴趣而不是原始差异。我现在有兴趣比较差异 2 倍的参与者. 例如,假设我有兴趣使用加性风险模型测量接触不同浓度的血源性病原体后的感染(是/否)。生物学模型可能表明,浓度每增加一倍,风险就会成比例地增加。然后,我不改变我的结果,但估计系数被解释为比较暴露于感染材料两倍浓度差异的组的风险差异。
最后,log(y) ~ log(x)
简单地应用这两个定义以获得相乘差异,比较暴露水平相乘不同的组。