逻辑回归中对优势比的简单预测的解释

机器算法验证 回归 物流 解释 预言 优势比
2022-02-02 21:27:14

我对使用逻辑回归有些陌生,并且对我对以下值的解释之间的差异感到有些困惑,我认为这些值是相同的:

  • 指数化的贝塔值
  • 使用 beta 值预测结果的概率。

这是我正在使用的模型的简化版本,其中营养不足和保险都是二元的,财富是连续的:

Under.Nutrition ~ insurance + wealth

我的(实际)模型为保险返回 0.8 的指数 beta 值,我将其解释为:

“投保人营养不良的概率是未投保人营养不良概率的 0.8 倍。”

然而,当我通过将 0 和 1 的值代入保险变量和财富的平均值来计算个人概率差异时,营养不足的差异仅为 0.04。计算如下:

Probability Undernourished = exp(β0 + β1*Insurance + β2*Wealth) /
                             (1+exp(β0 + β1*Insurance + β2*wealth))

如果有人能解释为什么这些值不同,以及更好的解释(尤其是第二个值)可能是什么,我将不胜感激。


进一步澄清编辑
据我了解,未投保人(其中 B1 对应于保险)营养不足的概率为:

Prob(Unins) = exp(β0 + β1*0 + β2*Wealth) /
              (1+exp(β0 + β1*0+ β2*wealth))

虽然被保险人营养不良的概率为:

Prob(Ins)= exp(β0 + β1*1 + β2*Wealth) /
           (1+exp(β0 + β1*1+ β2*wealth))

与投保人相比,未投保人营养不良的几率为:

exp(B1)

有没有办法在这些值之间进行转换(数学上)?我仍然对这个等式有点困惑(我可能应该是 RHS 上的不同值):

Prob(Ins) - Prob(Unins) != exp(B)

用外行的话来说,问题是为什么投保个人不会像赔率比所表明的那样改变他们营养不良的可能性?在我的数据中,Prob(Ins) - Prob(Unins) = .04,其中指数 beta 值为 0.8(那么为什么差异不是 0.2?)

2个回答

在我看来, ,除非所以,我不太清楚混乱可能是什么。我能说的是(不)等号的左侧(LHS)是营养不良的几率,而RHS是营养不良的概率当单独检查时,优势比,它是允许您从优势( ) 移动到优势( ) 的乘法因子。

exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
exp(β0+β1x)=0exp(β1)xx+1

如果您需要其他/不同的信息,请告诉我。

更新:
我认为这主要是一个不熟悉概率和几率的问题,以及它们之间的关系。这些都不是很直观,您需要坐下来使用它一段时间并学会用这些术语进行思考;这对任何人来说都不是自然而然的。

问题是绝对数字很难单独解释。假设我告诉你有一次我有一枚硬币,我想知道它是否公平。所以我翻转了一些,得到了6个正面。这意味着什么?6是很多,一点,对吗?很难说。为了解决这个问题,我们想给数字一些背景信息。在这种情况下,如何提供所需的上下文有两个明显的选择:我可以给出翻转的总数,或者我可以给出尾部的数量。无论哪种情况,您都有足够的信息来理解 6 个正面,如果我告诉您的那个不是您喜欢的那个,您可以计算另一个值。概率是正面的数量除以事件的总数。几率是正面数量与正面数量的比率非正面(直觉上我们想说尾部的数量,在这种情况下有效,但如果有超过 2 种可能性,则不是)。对于赔率,可以给出两个数字,例如 4 到 5。这意味着从长远来看,每 5 次没有发生的事情就会发生 4 次。当赔率以这种方式呈现时,它们被称为“拉斯维加斯赔率”。然而,在统计数据中,出于标准化的目的,我们通常划分并说几率是 0.8(即 4/5 = .8)。我们还可以在赔率和概率之间进行转换:

probability=odds1+odds                odds=probability1probability
(使用这些公式可能很难识别出几率是顶部的 LHS,而概率是 RHS,但请记住,它是中间的不等号。)优势比只是某事物的几率除以其他事情的几率;在逻辑回归的上下文中,每个是在所有其他条件相同时,相关协变量的连续值的几率之比。 exp(β)

从所有这些等式中认识到的重要一点是概率、优势和优势比并不以任何直接的方式等同。仅仅因为概率上升了 0.04 很大并不意味着赔率或赔率比应该是 0.04!此外,概率范围为,而 ln 几率(原始逻辑回归方程的输出)范围为,优势和优势比范围为最后一部分至关重要:由于概率的范围有限,概率是非线性的,但 ln 几率可以是线性的。也就是说,作为(例如)[0,1](,+)(0,+)wealth以恒定的增量上升,营养不足的概率会以不同的量增加,但 ln 几率会以恒定的量增加,而几率会以恒定的乘法因子增加。对于逻辑回归模型中的任何给定值集,可能存在 对于一些给定的,但在其他地方它将是不平等的。

exp(β0+β1x)exp(β0+β1x)=exp(β0+β1x)1+exp(β0+β1x)exp(β0+β1x)1+exp(β0+β1x)
xx

(虽然它是在另一个问题的背景下写的,但我在这里的回答包含很多关于逻辑回归的信息,可能有助于您更全面地理解 LR 和相关问题。)

优势比 OR=Exp(b) 转换为概率 A = SQRT(OR)/(SQRT(OR)+1),其中概率 A 是事件 A 的概率,OR 是发生事件 A/未发生事件 A 的比率(或如上述问题中的保险暴露/未暴​​露)。我花了很长时间才解决;我不确定为什么这不是众所周知的公式。

有一个例子。假设有10人被大学录取;其中7人是男性。因此,对于每个人来说,被录取的概率是 70%。男性被录取的几率是 7/3=2.33,不被录取的几率是 3/7=0.43。优势比 (OR) 为 2.33/0.43=5.44,这意味着男性被录取的机会比女性高 5.44 倍。让我们从 OR 中找到男性被录取的概率:P=SQRT(5.44)/(SQRT(5.44)+1)=0.7

更新 只有当被录取的男性或女性人数等于申请人数时,这才是正确的。换句话说,它不是 OR。在不知道其他信息的情况下,我们无法找到概率增益(或损失)取决于因素。