我有一个右偏的结果变量,所以我对它进行了日志转换。我制作了一个只有对数转换结果变量的空模型,但是当我对估计值求幂时,它不等于平均值。
考虑到我的数据有问题,我制作了一个样本数据集,发现了同样的差异。为什么是这样?在这个模型中截距代表什么?
这是示例数据和 R 代码:
library(tidyverse)
test <- tibble(salary = c(10000, 23244, 2222222, 2353, 2353463, 5464564),
perf = c(4, 2, 4, 2, 5, 7))
这是我的空模型:
summary(lm(log(salary) ~ 1 , data = test))
截距等于 11.971,当我使用 exp(11.971) 时,我得到 158102.7:
exp(11.971)
但平均值为 1679308:
mean(test$salary)
而且,作为健全性检查,当我不记录转换结果时,截距确实会产生平均值:
summary(lm(salary ~ 1 , data = test))
我很感激 1)如何解释截距,2)为什么它不等于平均值,以及 3)我如何从这个模型中获得非对数预测。