解释具有超过 2 个水平的分类变量的逻辑回归模型中的系数

机器算法验证 回归 物流 分类数据 优势比 截距
2022-04-08 15:08:30

有相当多的内容在线解释具有二分预测器的逻辑模型中的赔率。我的问题是当分类变量有超过 2 个级别时理解系数。那你怎么定义赔率呢?

Data: 
X is a single categorical predictor with 4 levels: teenager, adult, mature, senior.
       Y: 1=smoking, 0=non smoking.

LR:  We use n-1 dummy variables.  
     I chose adult as the reference bin as it had the highest concentration. (ok??)

________ | Intercepts   | p
adult    |    -4.3801   | 0
teenager |    -0.32456  | 0
mature   |     1.45119  | 0
old      |    -0.9891   | 0

解释系数

青少年:青少年不太可能吸烟(成人?)。事实上,青少年吸烟的可能性比成人低 28% (exp-0.32456 -1)。是否总是针对参考组提到青少年吸烟的几率?

成熟:成熟更喜欢吸烟(成人?)。事实上,成年人吸烟的可能性比成年人高 326%。是否总是针对参考组提到成熟吸烟的几率?

3个回答

如果你写出对数吸烟几率的拟合模型

logPr(Y=1)Pr(Y=0)=4.3801+0.32456 Iteen+1.45119 Imature+0.9891 Iold

其中假人是 &c.,您可以确认您的计算。请注意,尽管“可能”是模棱两可的——它可能被认为是指概率——你可能更愿意在正式或教学环境中说“青少年吸烟的几率比成年人吸烟的几率低 28%” .

Iteen={0Xteenager1X=teenager

重要的是要了解逻辑回归参数仅在本地为真这意味着每个估计的相对影响将根据自变量的值而变化。这是一篇可以帮助解释事情的论文。

如果 其中是 logit 函数,则 这是因为链式法则如果你看一个 logit 函数 y=F(βx)yϵ(1,0)F(x)dy/dx1dy/dx2dy/dx=dydF(x)dF(x)dx

您将看到 x 的斜率根据您在曲线上的位置而变化。在实践中,这意味着您只解释逻辑回归中的等级和符号,因为影响的大小将取决于您的参数和变量如何与 logit 函数交互