决策树作为逻辑回归的变量选择

机器算法验证 回归 特征选择
2022-04-08 00:16:21

我必须进行逻辑回归,并且必须使用变量的子集。我收到了这个“提示”:先做一个决策树,然后在 Logistic Regression 中使用最相关的变量

这是一种有效的技术吗?如果不是,它面临什么问题?

PS:这里也给出了这个提示,用于标准回归。

更新:首先感谢所有答案。我肯定会尝试 LASSO 模型。但是,算法必须简单,并且易于 IT 实施。这是一个“数百万行”的数据库,模型需要反复估计。它会改变方法吗?

4个回答

除了自动选择变量的常见问题之外,这使用树的目的不是为它们设计的。对我来说,分类树有两大优势:

1)它们在直觉上非常清晰。2)它们允许您以在回归模型中非常困难的方式查看交互,因为交互在树的不同分支中可能不同。

变量选择是一个很大的话题,在这里经常讨论。我自己偏爱 LASSO 或 LAR。

如果您可以访问 LASSO 并且您的预测变量都是数字的,那么正如 Peter 提到的那样,这是一个不错的选择。

如果您有大量在营销等领域经常遇到的预测变量 - 那么这在计算上可能过于昂贵。在这种情况下,可以使用树,但随机森林或梯度提升回归树可能是更好的选择,因为变量重要性更稳健(出于同样的原因,提升和袋装树预计会更稳定)。

R 中的派对包可能是另一个不错的选择,因为据称条件推理树和相关的森林以及变量重要性度量的偏差较小。第六方

在统计数据之外,谷歌搜索“特征选择”可能会给你更多的想法。

随机森林技术与决策树有关。它输出的度量是可变的重要性度量。这种度量通常用于特征选择,这是一种选择变量子集的技术。他们要理解的关键方面是特征选择(子集选择)有很多方法出错。例如,如果您的模型使用重采样计划(交叉验证/引导程序)进行评估,则必须在每次迭代时重复变量选择。这需要大量的背景阅读才能充分理解。但是在此站点和其他站点中搜索“randomForest”、“变量重要性”、“变量选择”、“交叉验证”和“过度拟合”将使您入门。

这种方法的问题之一是逻辑回归和决策树是非常不同的算法,因此与决策树一起工作的特征集不一定是与逻辑回归模型一起工作的特征(反之亦然)反之亦然)。所以我的建议是,这种方法有点小技巧,可能会有更好的方法。有一个很好的关于特征选择的教程:

Isabelle Guyon, André Elisseeff,“变量和特征选择简介”,机器学习研究杂志,3(三月):1157-1182,2003。(www

我和 Peter Flom (+1) 和 B_Miner (+1) 一样,非常热衷于基于 LASSO/LARS 的方法(随机森林也是一个很好的算法),我自己的贡献可以在这里找到:

Gavin C. Cawley 和 Nicola LC Talbot,使用带有贝叶斯正则化的稀疏逻辑回归的癌症分类中的基因选择,生物信息学,(2006) 22 (19): 2348-2355。万维网

其中 LASSO 类型惩罚的正则化参数是通过分析整合出来的,因此没有要调整的超参数。

正如@julieth 指出的(+1),如果您使用特征选择,则必须在交叉验证过程的每一折中独立地执行特征选择步骤,否则您最终会得到一个乐观的有偏差的性能估计。有关详细信息,请参阅本文

Christophe Ambroise 和 Geoffrey J. McLachlan,基于微阵列基因表达数据的基因提取中的选择偏差,PNAS,第一卷。99,没有。10, pp 6562–6566, 2002 ( www )

对于任何对特征选择感兴趣的人来说,这篇论文都是“必读” !