预测变量在逻辑回归中的相对重要性

机器算法验证 r 回归 物流 预测器 重要性
2022-04-05 02:27:21

我想计算预测变量在逻辑回归中的相对重要性的估计(即使是非常粗略的估计),这可以让我告诉一个不精通统计的普通人(就像me),例如:这些是预测变量:x1、x2、x3、x4,它们在统计上都是显着的,但是正如你所看到的,x2 比 x1、x3 和 x4 更重要,因为“未知数据”的值高于"unknown value/other predictor"

我阅读了最终模型中预测变量的相对重要性,逻辑回归中每个预测变量的重要性,如何根据 p 量化逻辑回归中的相对变量重要性?,但我没有阅读我要查找的内容。我使用 R 并且我知道它的一个包:插入符号(https://github.com/topepo/caret/)及其称为“varImp”的函数,但我不明白如何使用 t-statistic 的绝对值,所以我不明白如何评论通过这个公式获得的值。

  • 主要问题是:在实践中,我如何判断逻辑回归的一个预测变量比另一个更重要?

  • 其次:我如何判断逻辑回归中的预测变量比另一个更重要?你能向我解释一下,一个统计学家,t 统计量的绝对值有什么帮助吗?

1个回答

我假设所有预测变量都已标准化(因此,以样本标准差为中心并按比例缩放)。

x是预测变量的向量和y响应,有条件地伯努利分布 wrtx. 那么如果μ=E[y|x]=p(y=1|x),那么显然

μxi=βiexp(β0βTx)(1+exp(β0βTx))2

测量的影响。这种效果是的函数。然而,两个预测变量的相对重要性是xiμx

μxiμxj=βiβj

它独立于因此,只要我们对所有预测变量进行了标准化,我们就可以将模型系数的估计视为预测变量对输出变化的相对重要性的指标。x

作为示例应用程序,我将改编James、Witten、Hastie 和 Tibshirani 撰写的An Introduction to Statistical Learning的第 4.3.4 节中的案例。假设您有一个Default信用卡所有者违约率数据库,其中包含预测变量student(分类)incomecredit card balance(连续)。标准化预测变量并拟合逻辑回归模型。现在您可以使用的相对大小来决定哪个预测变量对违约概率的影响更大。这有助于信用卡公司决定他们应该向谁提供信贷、哪些类别的风险更大、广告活动的目标客户群等等。β^j

最后,本文列出了逻辑回归相对预测变量重要性的六种不同定义。

第一个与我展示的非常相似,唯一的区别是,它们不是在之前标准化预测变量,而是在估计之后通过乘以比率 ,其中是响应样本标准差,是预测变量的样本标准差。这与我的建议并不完全相同,因为逻辑回归系数的估计量是数据的非线性函数,但想法是相似的。β^jsjsysysjxj

第二个(使用Wald值)存在缺陷,正如@MatthewDrury 在对 OP 的评论中所解释的那样,不应使用。pχ2

第三个(逻辑伪偏相关)可能是一个不错的选择,而不是 Wald统计量,在伪偏相关的分子中,我们使用仅具有预测变量的模型的似然比,到的完整模型。我无法评论其他方法,因为我对它们了解不够。χ2xi