变量重要性排名有什么用?

机器算法验证 多重回归 多元分析 重要性
2022-02-10 04:08:06

当谈到可变重要性排名时(在各种多元模型的背景下),我已经变得有点虚无主义者了。

在我的工作过程中,我经常被要求帮助另一个团队生成可变重要性排名,或者根据我自己的工作生成可变重要性排名。针对这些要求,我提出以下问题

你想要这个可变重要性排名的目的是什么?你希望从中学到什么?您想使用它做出什么样的决定?

我收到的答案几乎总是属于以下两类之一

  • 我想知道我的模型中不同变量在预测响应中的重要性。
  • 我想通过删除低重要性变量来使用它进行特征选择。

第一个反应是重言式(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为单独对变量“重要性”进行排名似乎隐含地拒绝了所讨论模型的多维性质。

第二个响应本质上简化为一种非正式版本的反向选择,其统计上的罪恶在 CrossValidated 的其他部分中有详细记录。

我还与重要性排名的不明确性质作斗争。对于排名应该衡量的基本概念似乎几乎没有一致意见,这给了他们一种非常特别的味道。分配重要性分数或排名的方法有很多,但它们通常存在缺点和注意事项:

  • 它们可能高度依赖于算法,例如随机森林和 gbms 中的重要性排名。
  • 它们可能具有极高的方差,随着对基础数据的扰动而发生巨大变化。
  • 它们可能会因输入预测变量的相关性而受到很大影响。

因此,尽管如此,我的问题是,变量重要性排名的一些统计有效用途是什么,或者,对于这种愿望的徒劳,什么是令人信服的论据(对于统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,以更有效地说明这一点为准。

4个回答

这完全是轶事,但我发现可变重要性对于识别 GBM 中的错误或弱点很有用。

可变重要性为您提供了一种很难获得的模型的巨大横截面概览。列表中较高的变量看到更多的活动(它们是否更“重要”是另一个问题)。通常,行为不佳的预测器(例如前瞻性的东西或高基数因素)会冲到顶部。

如果直觉变量重要性和 GBM 变量重要性之间存在很大分歧,通常会获得一些有价值的知识或发现错误。

我会在“你为什么要问我这个?”中添加第三个答案。问题,即“因为我想了解我的反应的原因”。呃。

正如这个问题所提出的那样,我认为可变重要性是一个模糊的概念。正如@DexGroves 所指出的,您对问题的重言式第一类回答以及那些将变量重要性解释为因果关系的人的不切实际的希望几乎不需要详细说明。

然而,为了公平起见,即使是弗兰克·哈雷尔(Frank Harrell)也允许将其作为建模策略的一部分。从他的Regression Modeling Strategies , 2nd edition 的第 97 页(相关课程笔记的第 131 页有类似的声明):

  1. 如果简约比准确性更重要,请进行有限的向后递减变量选择。

然而,反向选择的这种有限的潜在用途是第 13 步,即最终模型(第 14 步)之前的最后一步。它发生在关键的第一步之后:

  1. 尽可能多地收集准确的相关数据,预测变量值的分布范围很广......
  2. 制定好的假设,导致相关候选预测变量和可能的相互作用的规范......

以我的经验,人们经常想绕过第 2 步,让一些自动化程序代替主题知识的智能应用。这可能会导致一些重点放在可变重要性上。

Harrell 步骤 14 的完整模型之后是 5 个进一步的验证和调整步骤,最后一步是:

  1. 通过将其近似到任何所需的准确度来开发对完整模型的简化。

正如其他答案所指出的,在建模结果的实际应用中存在可操作性、成本和简单性问题。例如,如果我开发了一种新的癌症生物标志物,它可以提高预后,但每次测试花费 100,000 美元,那么可能很难说服保险公司或政府支付测试费用,除非它非常有用。因此,有人希望专注于“最重要”的变量,或者将一个准确的模型简化为一个不太准确但更容易或更便宜的实施的模型,这并非不合理。

但是这种变量选择和模型简化应该是针对特定目的的,我认为这就是困难所在。这个问题类似于仅根据正确分类的案例百分比来评估分类方案。正如不同的分类错误可能有不同的成本一样,不同的模型简化方案可能有不同的成本,以平衡它们的期望收益。

因此,我认为分析师关注的问题是能够通过统计建模程序可靠地估计和说明这些成本和收益,而不是过分担心统计有效性本身的抽象概念。例如,上面链接的 Harrell 课堂笔记的第 157-8 页有一个使用引导程序以最小二乘法显示排名预测变量的变化的示例;对于 LASSO 选择的变量集,可以找到类似的结果。

如果变量选择中的这种可变性不会妨碍模型的特定实际应用,那也没关系。工作是估计简化将导致多少和什么类型的麻烦。

每当需要对流程(任何流程)的潜在大量输入进行优先级排序时,可变重要性排名在应用商业世界中具有明确的作用。该信息为解决问题的集中策略提供了方向,从最重要到最不重要,例如,降低过程成本,因为变量是可利用的,而不是固定的或不受操纵的结构因素。归根结底,这应该会导致某种 A/B 测试。

然而,就你的观点而言,马特,与任何序数排名一样,变量之间的细微差别或差异可能会模棱两可或模糊不清,从而削弱它们的用处。

从理论上讲,我完全同意你的看法。但从实际的角度来看,变量重要性非常有用。

让我们举一个例子,其中一家保险公司希望减少量化客户风险的问卷中的问题数量。问卷越复杂,客户购买他们产品的可能性就越小。出于这个原因,他们希望在保持风险量化水平时减少不太有用的问题。解决方案通常是使用可变重要性来确定从问卷中删除哪些问题(并且对潜在客户的风险状况“或多或少”进行相同的预测)。