如何解释线性回归中的对数变换系数?

机器算法验证 回归 数据转换 回归系数 对数
2022-03-27 12:21:37

我的情况是:

我有 1 个连续因变量和 1 个连续预测变量,我已经对其进行了对数转换,以将它们的残差归一化以进行简单的线性回归。

对于如何将这些转换后的变量与其原始上下文相关联,我将不胜感激。

我想使用线性回归根据学生在 2010 年缺课的天数预测 2011 年缺课的天数。大多数学生缺课 0 天或仅几天数据正向左偏斜。因此,需要进行转换以使用线性回归。

我对这两个变量都使用了 log10(var+1)(我对缺课 0 天的学生使用了 +1)。我使用回归是因为我想添加分类因素 - 性别/种族等。

我的问题是:

我想反馈的观众不会理解 log10(y) = log(constant) + log(var2)x(坦率地说我也不理解)。

我的问题是:

a)是否有更好的方法来解释回归中的转换变量?即在 2010 年永远错过 1 天,他们将在 2011 年错过 2 天,而不是在 2010 年永远改变 1 个对数单位,2011 年会有 x 个对数单位变化?

b) 具体来说,鉴于此来源引用的段落如下:

“这是对数学标准化考试成绩增加一个单位的负二项式回归估计,因为模型中的其他变量保持不变。如果学生将她的数学考试成绩提高一分,则对数的差异预期计数预计将减少 0.0016 个单位,同时保持模型中的其他变量不变。”

我想知道:

  • 这段话是说变量数学的分数每增加一个单位就会UNTRANSFORMED导致常数 (a) 下降 0.0016,所以如果UNTRANSFORMED数学分数上升两分,我从常数 a 中减去 0.0016*2?
  • 这是否意味着我通过使用指数(a))和指数(a + beta * 2)得到几何平均值,并且我需要计算这两者之间的百分比差异来说明预测变量有什么影响/有因变量吗?
  • 还是我完全错了?

我正在使用 SPSS v20。很抱歉在一个很长的问题中提出这个问题。


4个回答

我认为@whuber 的评论中提出了更重要的一点。您的整个方法是错误的,因为通过取对数,您实际上是在将 2010 年或 2011 年缺失天数为零的任何学生从数据集中剔除。听起来这些人已经足够多,我相信您的结果会根据您采用的方法是错误的。

相反,您需要使用泊松响应拟合广义线性模型。除非您为相应的模块付费,否则 SPSS 无法做到这一点,因此我建议升级到 R。

您仍然会遇到解释系数的问题,但这对于拥有一个基本合适的模型的重要性来说是次要的。

我同意其他受访者的观点,尤其是在模型形式方面。但是,如果我理解您提出问题的动机,那么您是在面向普通观众并希望传达实质性内容(理论)你分析的意义。为此,我比较了各种“情景”下的预测值(例如预计错过的天数)。根据您选择的模型,您可以在预测变量处于某些特定固定值(例如,它们的中位数或零)时比较因变量的预期数量或值,然后显示预测变量的“有意义”变化影响预测。当然,您必须将数据转换回最初的、可理解的规模。我之所以说“有意义的变化”,是因为标准的“X 中的一个单位变化”通常并不能传达自变量的真正导入或缺失。对于“出勤数据”,我不确定这样的变化会是什么。(如果一个学生在 2010 年没有错过任何一天,而在 2011 年又错过了一天,我不确定我们会学到什么。但我不知道。)

如果我们有模型,那么我们可能期望增加 1 个单位会导致 Y 增加 a 个单位。相反,如果我们有,那么我们预计会增加 1%在 Y中产生单位增量。Y=bXXY=blog(X)Xblog(1.01)

编辑:哎呀,没有意识到你的因变量也被对数转换了。这是一个链接,其中包含一个描述所有三种情况的好示例:

1) 仅转换 Y 2) 仅转换预测变量 3) 转换 Y 和预测变量

http://www.ats.ucla.edu/stat/mult_pkg/faq/general/log_transformed_regression.htm

我经常使用对数变换,但我倾向于使用二进制协变量,因为它会导致乘数方面的自然解释。假设您想预测,例如 3 个二进制协变量中的值。现在,而不是呈现:YX1X2X3{0,1}

log(Y)log(C)+X1W1+X2W2 ,

你可以简单地展示:

YC M1X1 M2X2 M3X3

其中:是乘数。也就是说,每次协变量等于 1 时,预测值就乘以例如,如果,您的预测是:M1=eW1M2=eW2M3=eW3XiMiX1=0X2=1X3=1

YC M2 M3

我使用因为这不完全是平均值的预测:对数正态分布的平均参数通常不是随机变量的平均值(因为它是没有经典线性回归的情况对数变换)。我在这里没有准确的参考,但我认为这是直截了当的推理。Y