逻辑回归中分类变量的排名

机器算法验证 回归 物流 分类数据 规模效应 排行
2022-03-22 19:29:40

我正在使用逻辑回归进行一些研究。10 个变量影响因变量。上述之一是分类的(例如,快递、标准交付等)。现在我想根据它们对因变量的影响的“强度”对这些类别进行排名。

它们都很重要(p 值小),但我认为我不能仅将赔率值用于排名目的。我不知何故需要弄清楚,如果每个类别也与其他类别有很大不同。这个对吗?

我读到了使变量居中的可能性。这真的是一种选择吗?我不希望我的模型的其余部分受到影响。


Stata 输出以支持我对@subra 帖子的评论:

Average marginal effects                          Number of obs   =     124773
Model VCE    : OIM

Expression   : Pr(return), predict()
dy/dx w.r.t. : ExpDel

------------------------------------------------------------------------------
             |            Delta-method
             |      dy/dx   Std. Err.      z    P>|z|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
ExpDel |   .1054605   .0147972     7.36   0.000     .0798584    .1378626
------------------------------------------------------------------------------
3个回答

由于您有兴趣对类别进行排名,因此您可能希望将类别变量重新编码为多个单独的二进制变量。

示例:为快递创建一个二进制变量 - 对于快递案例,其值为 1,否则为 0。同样,标准交付的二进制变量。

对于这些重新编码的二进制变量中的每一个,您可以计算边际效应,如下所示:

公式

让我解释一下上面的等式:假设 d 是重新编码的用于快递的二进制变量

公式 是当 d=1 时以平均值评估的事件概率

公式是当 d=0 时以平均值评估的事件概率

一旦计算出所有类别(重新编码的二进制变量)的边际效应,您就可以对它们进行排名。

您可以当时仅使用 1 个变量拟合逻辑回归模型并检查调整后的 R2。

解释大部分方差的那个应该对模型有更大的影响......

我只是猜测,不确定这是一个严格的解决方案......

这是一个常见的问题,有很多答案。最简单的就是使用标准化的特征;然后,返回的系数的绝对值可以松散地解释为对 log(odds)的“更高”=“更多影响”。在大多数情况下,使用标准分数不应影响您的整体结果(ROC 曲线应该相同;混淆矩阵应该相同,假设您选择了可比较的决策阈值)。我通常以两种方式计算回归;一次使用原始分数(以获得我将使用的预测方程),第二次使用标准化分数来查看哪个最大。

至于分类预测变量,我假设(但尚未检查)在使用归一化预测变量时也是如此。

如果您还没有,您还应该考虑使用正则化:Lasso/ridge/elastic net。这将有助于剔除弱、不相关或冗余的特征,从而为您留下更简洁的模型。