SHAP 解释器的样本大小和 SHAP 值的范围

数据挖掘 机器学习 分类 预测建模 随机森林 形状
2022-02-23 09:40:15

我正在研究一个包含 977 条记录的二进制分类,类别比例为 77:23。我使用了随机森林模型。

根据我尝试运行 SHAP 包,我得到了下面的图

在此处输入图像描述

而且我还看到 SHAP 要求我们选择样本大小来获得SHAP值,如此处所示

当 SHAP 不使用与 LIME 邻域相同的假设时,为什么需要提及样本量?

总结一下,我的问题如下

a)根据我上面的情节,我的特征贡献是不是非常少?贡献幅度是否应该大于 1 才被视为重要特征(具有一定的预测能力),还是 x 轴的比例因项目而异?虽然它显示 0.20,0.12,0.11,0.5 等,但我如何知道它们是否具有足够的预测能力?在 SHAP 网站上,我看到它们的值超过 0.5 等。特定于该问题的范围或 SHAP 值通常有一个共同的范围,我的功能做出的贡献很小?

b) 另外,为什么我们要给定样本大小来计算 SHAP 值?

0个回答
没有发现任何回复~