我正在研究一个包含 977 条记录的二进制分类,类别比例为 77:23。我使用了随机森林模型。
根据我尝试运行 SHAP 包,我得到了下面的图
而且我还看到 SHAP 要求我们选择样本大小来获得SHAP值,如此处所示
当 SHAP 不使用与 LIME 邻域相同的假设时,为什么需要提及样本量?
总结一下,我的问题如下
a)根据我上面的情节,我的特征贡献是不是非常少?贡献幅度是否应该大于 1 才被视为重要特征(具有一定的预测能力),还是 x 轴的比例因项目而异?虽然它显示 0.20,0.12,0.11,0.5 等,但我如何知道它们是否具有足够的预测能力?在 SHAP 网站上,我看到它们的值超过 0.5 等。特定于该问题的范围或 SHAP 值通常有一个共同的范围,我的功能做出的贡献很小?
b) 另外,为什么我们要给定样本大小来计算 SHAP 值?
