数据挖掘 - SHAP 解释器的样本大小和 SHAP 值的范围 - 吾爱随笔录

我正在研究一个包含 977 条记录的二进制分类，类别比例为 77:23。我使用了随机森林模型。

根据我尝试运行 SHAP 包，我得到了下面的图

当 SHAP 不使用与 LIME 邻域相同的假设时，为什么需要提及样本量？

总结一下，我的问题如下

a）根据我上面的情节，我的特征贡献是不是非常少？贡献幅度是否应该大于 1 才被视为重要特征（具有一定的预测能力），还是 x 轴的比例因项目而异？虽然它显示 0.20,0.12,0.11,0.5 等，但我如何知道它们是否具有足够的预测能力？在 SHAP 网站上，我看到它们的值超过 0.5 等。特定于该问题的范围或 SHAP 值通常有一个共同的范围，我的功能做出的贡献很小？

b) 另外，为什么我们要给定样本大小来计算 SHAP 值？