对数对数回归 - 虚拟变量和索引

机器算法验证 回归 分类数据 计量经济学 回归系数 对数
2022-03-22 16:13:29

I have the following log-log regression equation (natural log was used):

ln(Sales Index) = B0 + B1 * ln(advertising spend) + B2 * (January) .... + e

where advertising spend is a continuous variable (is never zero) and January is a dummy variable. The Sales Index is never zero either.

I understand how to interpret the coefficient B1. Where I am getting stuck is in interpreting coefficient B2 (when January = 1). I've looked at the following questions for guidance:

Interpreting logarithmically transformed coefficients in linear regression
Interpretation of log transformed predictor
How to use index in a multiple regression

说当 1 月 = 1、B2 = 0.4 和 ln(Sales Index) = 0.35 时是否正确:

1) 首先,你需要取 exp(0.4) = 1.4918。
2) 这是 ln(Sales Index) 的乘数,所以 1.4918 * 0.35 意味着如果是 1 月,这会导致销售指数增加 52.21%(保持所有其他 x 变量不变)?

4个回答

在具有对数因变量的模型中对虚拟变量的解释在某种意义上是不对称的:它取决于您是打开一月(从 0 到 1)还是关闭一月。

Y成为您的销售指数和X你的一月假人。我认为将您的模型描述如下是公平的(我将遵循约定并使用下标松散地播放它)。我省略了广告支出部分,因为您提到您了解如何解释它。我们有:

logY=α+βX+ϵ

如果我们对两边取幂,这是

Y=eα+ϵ
当一月“关闭”时,以及
Y=eα+β+ϵ
当一月“开”时

现在,如果我们想比较两个数字 A 和 B 相对于 B 的差值,我们计算 (AB)/B,对吗?我说 15 比 10 大 50%,因为 (15-10)/10 = 0.5; 让我们在上面的表达式中使用这个框架。

从一月“关闭”到一月“开启”的差异 =

eα+β+ϵeα+ϵeα+ϵ=eβ1

从一月“开”到一月“关”的差异=

eα+ϵeα+β+ϵeα+β+ϵ=eβ1

也许你知道这是怎么回事。让我们选择一个值β, 说0.3.然后从关闭到打开增加Y经过e0.31=0.35, 增加了 35%。但走另一条路会减少Y经过(e0.31)=0.26,减少了 26%。值得注意的是,这些都不符合您的系数 0.3!

当然,这都忽略了估计回归参数的错误。如果你真的对估计变化不感兴趣,那很好Y, 但在logY. 然而,你似乎在乎Y本身,这引发了另一个问题:对数线性模型中的重变换偏差。这会让你的预测产生偏差Y向下,并且与你的自变量是否连续无关,所以我不会在这里讨论这个话题。

当您包含类别的虚拟变量时,您通常会留下一个虚拟变量,以便设计矩阵X不是等级不足。(这是一个非常重要的,有点抽象的概念。)

  • 假设您有 Jan、Feb、...、Nov 的虚拟变量,也就是说,您省略了 12 月的虚拟变量。
  • 1 月的系数是 1 月对于 12 月的影响。
  • 例如。如果b2为 0.02,这意味着 1 月份的销售额比 12 月份高出约 2%。

日志的变化在概念上类似于水平的百分比变化。


边注:

为了y2靠近y1, 你有:

logy2logy1y2y1y1

也就是说,对数差异接近百分比变化(您可以使用一阶泰勒展开来证明这一点,以使对数接近 1 线性化)。例如。log(2.02)log(2)=.01. 作为y2y1但是,距离越远,该近似值就会失效。例如。log(1.4)log(1)=.3365. 1.4 比 1 高 40%,但对数差异仅为 0.3365。

还值得一看“Halvorsen, R., & Palmquist, R. (1980)。半对数方程中虚拟变量的解释。美国经济评论,70(3), 474-475。”

用虚拟变量解释系数的方法是作为变量截距。这里解释了类似的东西:线性回归中“斜率”和“截距”的混淆

如果您将变换返回到线性比例,则截距将起到乘法常数的作用。

ln(Sales Index)=B0+B1ln(advertising spend)+B2(January)++ϵ

这相当于

Sales Index=advertising spendB1ln(B0+B2(January)+)+ϵ

本期ln(B0+B2(January)+)不同月份会有不同的值

ln(B0+B2(January)+)={ln(B0+B2)if it is Januaryln(B0+B3)if it is Febuaryln(B0+B4)if it is Marchln(B0+B5)if it is Aprilln(B0+B13)if it is December