变量在逻辑回归中的重要性

机器算法验证 机器学习 物流 分类
2022-03-09 06:24:36

我可能正在处理一个可能已经解决了一百次的问题,但我不确定在哪里可以找到答案。

使用逻辑回归时,给定许多特征x1,...,xn并试图预测一个二元分类值y,我有兴趣选择预测的特征子集y好。

有没有类似于套索的程序可以使用?(我只见过用于线性回归的套索。)

查看拟合模型的系数是否表明不同特征的重要性?

编辑 - 看到一些答案后的澄清:

  1. 当我提到拟合系数的大小时,我指的是那些适合归一化(均值 0 和方差 1)特征的系数。否则,正如@probabilityislogic 指出的那样,1000x 似乎不如 x 重要。

  2. 我对简单地找到最好的 k 子集(正如 @Davide 提供的那样)不感兴趣,而是权衡不同特征相对于彼此的重要性。例如,一个特征可能是“年龄”,而另一个特征可能是“年龄>30”。它们的增量重要性可能很小,但两者都可能很重要。

3个回答

DWin 的回复提供了答案,但缺乏洞察力,所以我认为提供一些解释可能会很有用。

如果您有两个班级,您基本上是在尝试估算p=P(yi=1|X=xi). 这就是您所需要的,逻辑回归模型假设:

logp1p=logP(yi=1|X=xi)P(yi=0|X=xi)=β0+β1Txi

我认为您所说的功能的重要性是什么意思j它是如何影响的p或者换句话说,什么是pxij.

经过一个小的改造,你可以看到

p=eβ0+β1Txi1+eβ0+β1Txi.

一旦你计算出你的导数,你就会看到

pxij=βjeβ0+β1Txi

这显然取决于所有其他变量的值。但是,您可以观察到系数的 SIGN 可以按照您想要的方式解释:如果它是负数,则此特征会降低概率 p。

现在在您的估算过程中,您正在尝试估算β假设你的模型是正确的。通过正则化,您可以在这些估计中引入一些偏差。对于岭回归和自变量,您可以获得封闭形式的解决方案:

βr^=β^β^+λ.

正如你所看到的,这可以改变你的系数的符号,所以即使是这种解释也会分裂。

你最后一个问题的答案是肯定的。系数的大小绝不是衡量重要性的标准。套索可用于逻辑回归。你需要更加刻苦地研究这个领域。您需要学习的方法是那些涉及“惩罚”方法的方法。如果您正在寻找发现“阴影”预测变量的检测方法,该术语可能在某处定义但不被普遍使用,那么您需要寻找检查预测空间内的交互和非线性结构的方法以及结果与该空间的联系。在 Frank Harrell 的著作《Regression Modeling Strategies》中对这些问题和方法进行了相当多的讨论。

后向选择策略将无法提供有效的结果(尽管它确实提供了结果)。如果您查看 100 个事件的 20 个随机预测变量的案例,您可能会发现 2 或 3 个将通过向后选择过程进行选择。现实世界中后向选择的盛行反映的不是仔细的统计思想,而是它在 SAS 和 SPSS 中的易用性以及这些产品的用户群缺乏复杂性。R 用户群很难访问在邮件列表上发布请求的此类方法和用户,因此他们通常会被告知与向后(或向前)选择方法有关的问题。

英语不是我的母语,所以我可能不明白你的问题是什么,但如果你需要找到最好的模型,你可以尝试使用反向过程(并最终添加交互),从具有所有协变量的模型开始。然后,您可以同时查看 residuals_vs_predicted 值和 qq 图,以检查模型是否能很好地描述您的现象