逻辑回归中的排名特征

机器算法验证 物流 特征选择 排行 回归策略
2022-03-17 00:27:40

我使用了逻辑回归。我有六个特征,我想知道这个分类器中比其他特征更能影响结果的重要特征。我使用了信息增益,但似乎它不依赖于使用的分类器。是否有任何方法可以根据特定分类器(如逻辑回归)根据其重要性对特征进行排名?任何帮助将不胜感激。

3个回答

我认为您正在寻找的答案可能是Boruta算法。这是一种包装方法,可以直接测量“所有相关性”意义上的特征重要性,并在R 包中实现,它会生成漂亮的图,例如 这个情节任何特征的重要性在 y 轴上并与null 在这里以蓝色绘制。这篇博文描述了这种方法,我建议您将其作为一个非常清晰的介绍来阅读。

要开始了解如何按回归模型的重要性对变量进行排名,您可以从线性回归开始。在线性回归模型中对变量的重要性进行排序的一种流行方法是分解R2归因于每个变量的贡献。但是由于变量之间的相关性,变量重要性在线性回归中并不简单。请参阅描述 PMD 方法的文档 (Feldman, 2005)[ 3 ]。另一种流行的方法是对排序进行平均(LMG,1980)[ 2 ]。

关于如何对逻辑回归的变量进行排名没有太多共识。[ 1 ]中给出了对该主题的一个很好的概述,它描述了使用 Pseudo-R2用于逻辑回归。

在逻辑回归模型中对特征重要性进行排名的常用方法列表如下:

  1. Logistic 伪偏相关(使用 Pseudo-R2)
  2. 充分性:每个预测变量单独解释的完整模型对数似然的比例
  3. 一致性:表示模型区分正响应变量和负响应变量的能力。为每个预测变量构建一个单独的模型,重要性分数是仅基于该预测变量预测的真阳性概率。
  4. 信息价值:信息价值量化了从预测器获得的结果的信息量。它基于对每个预测变量的依次分析,而不考虑其他预测变量。

参考:

  1. 关于在 Logistic 回归中测量解释变量的相对重要性
  2. R中线性回归的相对重要性
  3. 相对重要性和价值,Barry Feldman(PMD 方法)

不要惊慌。逻辑回归 (LR) 在很大程度上可以是一种分类方案。LR 最小化以下损失:

minw,bi=1nlog(1+exp(yifw,b(xi)))+λw2
其中是特征向量和目标向量,例如该函数源自所有训练示例的联合似然性,这解释了它的概率性质,即使我们将其用于分类。在等式中, 是你的权重向量,是你的偏差。我相信您知道是什么。最小化问题的最后一项是正则化项,除其他外,它控制模型的泛化。xiyiiwbfw,b(xi)

假设你所有的都是标准化的,例如通过除以的大小,很容易看出哪些变量更重要:那些比其他变量更大或(在消极方面) 比其他的更小。它们对损失的影响最大。xx

如果您热衷于寻找真正重要的变量并且在此过程中不介意剔除一些变量,您可以正则化您的损失函数: 1

minw,bi=1nlog(1+exp(yifw,b(xi)))+λ|w|

导数或正则化器非常简单,所以我不会在这里提及它们。使用这种形式的正则化和适当的将强制中不太重要的元素变为零,而其他元素则不会。λw

我希望这有帮助。询问您是否还有其他问题。