上下文:解释二元分类器 XGBoost 模型。
如果我们说我们仅限于 LIME 和 Shapley Additive Explanation aka “shap” 包,那么有什么理由使用 LIME?我的印象是,LIME 是解释机器学习模型问题的一个有缺陷的半解决方案,几年前可能“总比没有好”,但现在已被 Lundberg 的shap包/方法取代。这解决了 LIME 的缺点。谁能想到使用 LIME 的理由?
上下文:解释二元分类器 XGBoost 模型。
如果我们说我们仅限于 LIME 和 Shapley Additive Explanation aka “shap” 包,那么有什么理由使用 LIME?我的印象是,LIME 是解释机器学习模型问题的一个有缺陷的半解决方案,几年前可能“总比没有好”,但现在已被 Lundberg 的shap包/方法取代。这解决了 LIME 的缺点。谁能想到使用 LIME 的理由?
我不会说 LIME 是一个有缺陷的半解决方案,而 SHAP 是一个完美的完整解决方案。
如果有的话,我想说这两种解决方案都存在固有缺陷,但也许是我们拥有的最好的。如果您打算使用机器学习模型的局部正确线性近似来解释预测,那么我会选择您喜欢的具有最少错误和最多功能的软件工具。也许 SHAP 提供了一些 LIME 没有的理论性质,但尚不清楚这些是否意味着解释的正确性。也许他们不允许某些可疑的解释。
大多数人都在寻找一种快速解决方法来理解他们的模型,而 LIME 和 SHAP 就是这样做的。有时监管机构甚至要求这样做。这是否意味着您真正了解您的模型?我不这么认为。
我认为没有任何理由使用 LIME 而不是 SHAP,除非用线性函数局部逼近函数并为训练目的创建增强示例的想法对您有吸引力。
除此之外,我建议不要使用 SHAP 或 LIME,如果您的数据并非总是线性的(尤其是在本地时 - 我可以想到一些示例,例如您是否使用带有 int 编码的分类特征)。
我认为模型解释的一种公平方法是一种非常广泛的方法,它从许多不同的角度来处理这个问题。您是否正在寻找是否存在隐藏的混杂因素?不公平的偏见?有很多来源,通常建议使用广泛的解决方案来理解您的模型,这并不像在石灰和 shap 之间进行选择那么简单。这是 IBM 解释其方法的示例https://www.ibm.com/watson/explainable-ai