逻辑回归系数的意义是什么?

机器算法验证 回归 物流 解释
2022-02-05 12:22:59

我目前正在阅读一篇关于 2000 年和 2004 年选举中的投票地点和投票偏好的论文。在其中,有一个显示逻辑回归系数的图表。几年前的课程和一点阅读,我将逻辑回归理解为描述多个自变量和二元响应变量之间关系的一种方式。我感到困惑的是,鉴于下表,因为南方的逻辑回归系数为 0.903,这是否意味着 90.3% 的南方人投票给共和党?由于度量的逻辑性质,这种直接相关性不存在。相反,我假设您只能说南部以 0.903 投票给共和党多于山区/平原,回归为 0.506。鉴于后者是这种情况,我怎么知道什么是重要的,什么是不重要的,考虑到这个逻辑回归系数,是否有可能推断出共和党投票的百分比。 显示逻辑回归系数的表格

作为旁注,如果有任何不正确的地方,请编辑我的帖子

4个回答

作者强迫像您这样深思熟虑的人提出这样的问题,这令人信服地说明了为什么将回归模型结果报告限制在这样的表格中的做法(仍然普遍)如此不可接受。

  1. 正如所指出的,您可以尝试将 logit 系数转换为对所讨论的预测器估计的效果的一些有意义的指示,但这很麻烦并且不能传达有关预测精度的信息,这通常在逻辑回归模型(特别是关于投票)。

  2. 此外,使用多个星号来报告显着性“水平”强化了这样一种误解,即 p 值是一些有意义的效应大小指数(“哇——一个有3 个星号!!”);对于大声喊叫,N 为 10,000 到 20,000,完全微不足道的差异将在 p < .001 blah blah 时“显着”。

  3. 完全没有必要以这种方式神秘化。逻辑回归模型是一个方程,可用于(通过确定的计算或更好的模拟)以预测变量的指定值为条件预测结果的概率,但会受到测量误差的影响。所以研究人员应该报告感兴趣的预测变量对感兴趣的结果变量和相关 CI 的概率有什么影响,以单位衡量,其实际重要性可以很容易地掌握。为确保准备好抓取,结果应以图形方式显示。例如,在这里,研究人员可以报告说,作为农村选民而不是城市选民,在其他条件相同的情况下,投票给共和党的可能性增加了 X 个百分点(我猜 2000 年大约是 17 个;“除以 4”是一个合理的启发式)在 0.95 置信水平下的 +/- x%——如果这是有用的信息。

  4. 伪 R^2 的报告也表明建模者正在进行统计仪式,而不是任何阐明的尝试。计算“伪 R^2”的方法有很多种;有人可能会抱怨这里使用的那个没有指定,但是为什么要麻烦呢?一切都近乎毫无意义。任何人使用伪 R^2 的唯一原因是他们或折磨他们的审稿人(可能是 25 年或更长时间前)了解到 OLS 线性回归是统计学的圣杯,并且认为唯一试图弄清楚的事情是“方差解释”。有很多合理的方法可以评估整体模型是否适合逻辑分析,似然比为比较反映替代假设的模型提供了有意义的信息。King, G.如何不对统计撒谎. 是。J.波尔。科学。30, 666-687 (1986)。

  5. 如果你读到一篇报道或多或少局限于这样一个表格的论文,不要混淆,不要害怕,也不要留下深刻的印象;相反,生气并告诉研究人员他或她的工作很糟糕(特别是如果他或她正在以神秘主义和敬畏的方式污染您当地的知识环境 - 令人惊讶的是有多少完全平庸的思想家欺骗聪明的人认为他们只知道某事b /c 他们可以生成一张后者无法理解的表格)。有关这些想法的巧妙、温和的阐述,请参阅 King, G.、Tomz, M. 和 Wittenberg., J.充分利用统计分析:改进解释和演示是。J.波尔。科学。44, 347-361 (2000); 和 Gelman, A.、Pasarica, C. 和 Dodhia, R.让我们实践我们所宣扬的:把表格变成图表是。统计。56, 121-130 (2002)。

这里的想法是,在逻辑回归中,我们预测的不是南方人投票共和党的实际概率,而是它的转换版本,即“对数赔率”。代替概率,我们处理并找到对数几率的线性回归系数。plogp/(1p)

例如,让我们假设一个城市东北人有 0.3 的概率投票给共和党。(这当然是回归的一部分;虽然我认为它在原始论文中,但我没有在此表中看到它的报告。)现在,给出 ; 也就是说,,对应于的“对数赔率” 。这些“对数赔率”是线性表现的;对应于的对数赔率是因此,一个城市南方人投票共和党的对数几率是这个(维基百科称之为截距,)加上南方的逻辑回归系数,x=1/(1+ez)z=logx1xf1(x)=logx1xx0.3log0.3/0.70.85β00.903 - 即但是你想要一个实际的概率,所以我们需要将函数反转。这给出了实际赔率已从变为,变为变为比率,逻辑回归系数的指数。0.85+0.904=0.05plogp/(1p)f(0.05)1/(1+e0.05)0.510.4311.0511.05/0.43e0.903

此外,对国家区域和城市/郊区/农村的影响不会相互作用。因此,根据这个模型,中西部农村人投票共和党的对数几率是概率为0.85+0.37+0.68=+0.20f(0.20)=1/(1+e0.20)=0.55

与参考类别相比,逻辑回归中的系数表示给定地区/人口投票共和党的趋势。正系数意味着该地区更有可能投票给共和党,反之亦然。较大的绝对值意味着比较小的值更强的趋势。

参考类别是“东北”和“城市选民”,因此所有系数都代表与该特定选民类型的对比。

一般来说,逻辑回归中的系数也没有限制在 [0, 1] 范围内,即使是绝对值也是如此。请注意,Wikipedia 文章本身有一个系数为 -5 和 2 的逻辑回归示例。

你还问“我怎么知道什么是重要的,什么不是。” (我假设您的意思是具有统计学意义,因为实际或实质性意义是另一回事。)表中的星号指的是脚注:一些效应被记录为具有较小的p值。这些是使用每个系数的显着性的 Wald 检验获得的。假设随机抽样,p <.05 意味着,如果在更大的人群中没有这种影响,那么在这种规模的样本中看到与观察到的一样强或更强的联系的概率将小于 0.05 . 您将在此站点上看到许多线程讨论p <.05 没有的微妙但重要的相关点意味着在更大的人口中没有联系的概率为 0.05。