如何解释模型的 Shapley 值图?

数据挖掘 机器学习 深度学习 特征选择 特征工程 绘图
2021-10-10 16:16:13

我试图使用Shapley value方法来理解模型预测。我正在Xgboost模型上尝试这个。我的情节如下所示

在此处输入图像描述

有人可以帮我解释一下吗?或者确认我的理解是正确的?

我的解释

1)高值Feature 5(由玫瑰色/紫色组合表示) - 导致预测 1

2)低值Feature 5(用蓝色表示) - 导致预测 0

3)Feature 1步骤 1 和 2也适用

4)低值Feature 6导致预测 1 和高值Feature 6导致预测 0

5)低值Feature 8导致预测 1 和高值Feature 8导致预测 1 也是如此。如果它太极端的 x 轴(意思是从 x(1,2) 或 x(2,3) - 这意味着这个特征的低值(在这种情况下)的影响,对预测有很大的影响 1 。 我对吗?

6)无论重要性/影响如何,为什么我在情节中看不到我所有的 45 个特征。no color当它们不重要时,我不应该看到吗?为什么我只看到大约 12-14 个特征?

7)Feature 43 , Feature 55,Feature 14在预测输出中起什么作用?

8)为什么 SHAP 值范围为-2,2?

有人可以帮我弄这个吗?

1个回答

1. 2.并不总是有一些蓝点也。

3. 4. 5.

6.这取决于您使用的 shap 图,在某些情况下,默认是隐藏不太重要的功能,甚至不绘制它们。

7.它们具有歧视性,但没有那么多,您可以将它们与其他一些特征选择技术相协调,并决定是否要保留它们。

8. SHAP值的范围仅受您正在解释的模型的输出幅度范围的限制。SHAP 值将与当前输出相加,但当特征之间存在抵消效应时,某些 SHAP 值的幅度可能大于特定实例的模型输出。如果您正在解释一个输出概率的模型,那么值的范围将是 -1 到 1,因为模型输出的范围是 0 到 1。如果您正在解释一个输出实数或对数赔率的模型,则SHAP 值可能更大,因为模型输出可能更大。