为什么模型的预测概率与逻辑回归中的理论概率之间存在如此不匹配?

数据挖掘 分类数据 逻辑回归
2022-02-11 11:08:36

在此处输入图像描述

我正在尝试使用 SAS Enterprise Miner 进行逻辑回归。我的自变量是

CPR/Inc (Categorical 1 to 7)
OD/Inc (Categorical 1 to 4)
Insurance (Binary 0 or 1)
Income Loss (Binary 0 or 1)
Living Arrangement (Categorical 1 to 7)
Employment Status (categorical 1 to 8)

我的因变量是默认值(二进制 0 或 1)

以下是运行回归模型的输出。

最大似然估计分析

                                  Standard          Wald
Parameter       DF    Estimate       Error    Chi-Square    Pr > ChiSq    Exp(Est)

Intercept        1     -0.4148      0.0645         41.30        <.0001       0.660
CPR___Inc  1     1     -0.8022      0.1051         58.26        <.0001       0.448
CPR___Inc  2     1     -0.4380      0.0966         20.57        <.0001       0.645
CPR___Inc  3     1      0.3100      0.0871         12.68        0.0004       1.363
CPR___Inc  4     1    -0.00304      0.0898          0.00        0.9730       0.997
CPR___Inc  5     1      0.1331      0.0885          2.26        0.1324       1.142
CPR___Inc  6     1      0.1694      0.0881          3.70        0.0546       1.185
Emp_Status 1     1     -0.2289      0.1006          5.18        0.0229       0.795
Emp_Status 2     1      0.4061      0.0940         18.66        <.0001       1.501
Emp_Status 3     1     -0.2119      0.1004          4.46        0.0347       0.809
Emp_Status 4     1      0.1100      0.0963          1.30        0.2534       1.116
Emp_Status 5     1     -0.2280      0.1007          5.12        0.0236       0.796
Emp_Status 6     1      0.3761      0.0943         15.91        <.0001       1.457
Emp_Status 7     1     -0.3337      0.1026         10.59        0.0011       0.716
Inc_Loss   0     1     -0.1996      0.0449         19.76        <.0001       0.819
Insurance  0     1      0.1256      0.0559          5.05        0.0246       1.134
Liv_Arran  1     1     -0.1128      0.0916          1.52        0.2178       0.893
Liv_Arran  2     1      0.2576      0.0880          8.57        0.0034       1.294
Liv_Arran  3     1      0.0235      0.0904          0.07        0.7950       1.024
Liv_Arran  4     1      0.0953      0.0887          1.16        0.2825       1.100
Liv_Arran  5     1     -0.0493      0.0907          0.29        0.5871       0.952
Liv_Arran  6     1     -0.3732      0.0966         14.93        0.0001       0.689
OD___Inc   1     1     -0.2136      0.0557         14.72        0.0001       0.808
OD___Inc   2     1     -0.0279      0.0792          0.12        0.7248       0.973
OD___Inc   3     1     -0.0249      0.0793          0.10        0.7534       0.975

现在我使用这个模型对一组新数据进行评分。我的新数据的示例行是

CPR - 7
OD - 4
Living Arrangement - 4
Employment Status - 4
Insurance - 0
Income Loss - 1

对于这个样本行,模型预测输出(默认概率 = 1)为 0.7335 为了手动检查,我添加了估计值

Intercept + Emp Status 4 + Liv Arran 4 + Insurance 0
-0.4148   + 0.1100  +   0.0953   +   0.1256    =   -0.0839

优势比 = 指数(-0.0839)= 0.9195

因此概率 = 0.9195 / (1 + 0.9195) = 0.4790

我无法理解为什么模型的预测概率和理论概率之间存在如此不匹配。

任何帮助将非常感激 。谢谢

1个回答

这可能是由于分类预测变量的效果编码例如,CPR = 7 的回归系数不是零,而是 -(其他 6 个级别的回归系数之和)。我猜 EM 应该可以选择将其切换到参考编码,然后你计算预测概率的方法应该可以工作。