当谈到可变重要性排名时(在各种多元模型的背景下),我已经变得有点虚无主义者了。
在我的工作过程中,我经常被要求帮助另一个团队生成可变重要性排名,或者根据我自己的工作生成可变重要性排名。针对这些要求,我提出以下问题
你想要这个可变重要性排名的目的是什么?你希望从中学到什么?您想使用它做出什么样的决定?
我收到的答案几乎总是属于以下两类之一
- 我想知道我的模型中不同变量在预测响应中的重要性。
- 我想通过删除低重要性变量来使用它进行特征选择。
第一个反应是重言式(我想要一个可变的重要性排名,因为我想要一个可变的重要性排名)。我必须假设这些排名在使用多元模型的输出时满足了心理需求。我很难理解这一点,因为单独对变量“重要性”进行排名似乎隐含地拒绝了所讨论模型的多维性质。
第二个响应本质上简化为一种非正式版本的反向选择,其统计上的罪恶在 CrossValidated 的其他部分中有详细记录。
我还与重要性排名的不明确性质作斗争。对于排名应该衡量的基本概念似乎几乎没有一致意见,这给了他们一种非常特别的味道。分配重要性分数或排名的方法有很多,但它们通常存在缺点和注意事项:
- 它们可能高度依赖于算法,例如随机森林和 gbms 中的重要性排名。
- 它们可能具有极高的方差,随着对基础数据的扰动而发生巨大变化。
- 它们可能会因输入预测变量的相关性而受到很大影响。
因此,尽管如此,我的问题是,变量重要性排名的一些统计有效用途是什么,或者,对于这种愿望的徒劳,什么是令人信服的论据(对于统计学家或外行而言)?我对一般的理论论证和案例研究都感兴趣,以更有效地说明这一点为准。