线性回归的特征重要性

机器算法验证 回归 大车 重要性
2022-03-18 07:27:56

有没有办法找到类似于树算法的线性回归的特征重要性,甚至是一些指示性参数?

我知道系数并不一定会给我们特征重要性。

但是,如果我的所有功能都缩放到相同的范围,它们会有帮助吗?

3个回答

线性回归已经是高度可解释的模型。我建议您阅读本书中的相应章节:可解释的机器学习(可在此处获得)。

此外,您可以使用与模型无关的方法,例如排列特征重要性(请参阅 IML Book 中的第 5.5 章)。这个想法最初是由 Leo Breiman (2001) 为随机森林引入的,但可以修改为适用于任何机器学习模型。重要性的步骤是:

  1. 您估计原始模型误差。
  2. 对于每个预测变量 j (1 .. p),您可以:
    • 置换预测变量 j 的值,保持数据集的其余部分不变
    • 用置换后的数据估计模型的误差
    • 计算原始(基线)模型和置换模型的误差之间的差异
  3. 以降序对产生的差异分数进行排序

排列特征重要性在几个 R 包中可用,例如:

  • 模内贴标
  • 达莱克斯
  • 贵宾

许多可用的方法依赖于的分解来为多元线性回归模型中的每个预测变量分配等级或相对重要性。该家族中的某种方法在“优势分析”一词下更为人所知(参见 Azen 等人,2003 年)。阿森等人。(2003) 还讨论了其他重要性度量,例如基于回归系数的重要性,基于基于系数和相关性组合的重要性相关性。可以在 Grömping (2012) 的论文中找到基于方差分解的技术的一般概述。这些技术在 R 包中实现并且. 其他软件也可以使用类似的程序R2relaimpodomiryhat

在他的书中, Frank Harrell使用部分减去其自由度作为重要性度量,并使用 bootstrap 在等级周围创建置信区间(参见 Harrell (2015) 第 117 页)。χ2

参考

Azen R, Budescu DV (2003):在多元回归中比较预测变量的优势分析方法。心理学方法8:2, 129-148。链接到PDF)

Grömping U (2012):基于方差分解的线性回归中相对重要性的估计量。上午统计61:2, 139-147。链接到PDF)

Harrell FE (2015):回归建模策略。第 2 版。施普林格。

是的,有可能。基本上,任何学习器都可以引导聚合(装袋)以产生集成模型,并且对于任何装袋的集成模型,都可以计算变量重要性。由于随机森林学习器固有地产生袋装集成模型,因此您几乎无需额外的计算时间即可获得变量重要性。对于不是袋装集成的线性回归,您需要先装袋学习器。即在引导采样数据上重新运行学习器,例如 50 次。因此,对于大型数据集,打包任何学习者的计算成本很高(约 50 倍),但出于诊断目的,它可能非常有趣。

对于回归示例,如果两个变量之间的严格交互(无主效应)对于产生准确的预测至关重要。普通线性模型不会对这两个变量赋予任何重要性,因为它不能利用这些信息。任何通用的非线性学习器都能够捕捉到这种交互作用,因此会赋予变量以重要性。

这是一个相关的答案,包括一个实际的编码示例: