什么是 Shapley 值回归以及如何实现它?

机器算法验证 回归 沙普利值
2022-04-05 22:11:32

我在本网站的其他地方看到了对 Shapley 值回归的引用,例如:

Shapley 值回归的替代方案

用于预测的 Shapley 值回归

具有二进制因变量的 Shapley 值回归 / 驱动程序分析

究竟是什么?

我的猜测会沿着这些方向发展。对于一组玩家合作并且每个合作玩家子集的预期收益已知的游戏,可以计算每个玩家的 Shapley 值,这是一种公平确定每个玩家对收益贡献的方法。我假设在回归案例中,我们不知道预期收益是多少。相反,我们使用一些随机变量对收益进行建模,并且我们有来自该随机变量的样本。

3个回答

Shapley 值回归:Shapley 值回归显着改善了共线性对回归方程估计参数的有害影响。Shapley 值的概念是在(合作共谋)博弈论中引入的,在这种理论中,代理人形成共谋并相互合作,以提高对他们有利的博弈价值,然后在他们之间进行分配。根据 Shapley 分解的博弈价值分布已被证明具有许多理想的属性(Roth,1988:pp 1-10),包括线性、一致、边缘主义等。遵循博弈价值共享理论,

Shapley 值回归的方案很简单。假设 z 为因变量,x1, x2, ... , xk ∈ X 为预测变量,可能具有强共线性。设 Yi ⊂ X 其中 xi ∈ X 不存在或 xi ∉ Yi。因此,Yi 将只有 k-1 个变量。我们从 Yi 中画出 r (r=0, 1, 2, ... , k-1) 个变量,并将这样画出的变量集合称为 Pr,使得 Pr ⊆ Yi 。此外,Yi = Yi∪∅。现在,可以用 L=kCr 的方式绘制 Pr。此外,令 Qr = Pr ∪ xi。在 Qr 上回归(最小二乘)z 以找到 R2q。在 Pr 上回归(最小二乘)z 以获得 R2p。两个 R 平方的差为 Dr = R2q - R2p,即 xi 对 z 的边际贡献。这是针对给定 r 的所有 L 组合完成的,并计算 Dr 的算术平均值(在 Dr 的所有 L 值的总和上)。一旦为每个 r 获得它,计算其算术平均值。请注意,对于 r=0,Pr 为空,因此 Qr 包含一个变量,即 xi。此外,当 Pr 为空时,其 R2 为零。结果是 xi 对 z 的平均(或预期)边际贡献的算术平均值。这是对所有 xi 完成的;i=1,k得到xi的Shapley值(Si);i = 1,k。在回归模型 z=Xb+u 中,OLS 给出了 R2 的值。所有 Si 的总和;i=1,2, ..., k 等于 R2。因此,OLS R2 已被分解。一旦已知所有 Shapley 值份额,就可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始比例和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。即十一。此外,当 Pr 为空时,其 R2 为零。结果是 xi 对 z 的平均(或预期)边际贡献的算术平均值。这是对所有 xi 完成的;i=1,k得到xi的Shapley值(Si);i = 1,k。在回归模型 z=Xb+u 中,OLS 给出了 R2 的值。所有 Si 的总和;i=1,2, ..., k 等于 R2。因此,OLS R2 已被分解。一旦已知所有 Shapley 值份额,就可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始比例和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。即十一。此外,当 Pr 为空时,其 R2 为零。结果是 xi 对 z 的平均(或预期)边际贡献的算术平均值。这是对所有 xi 完成的;i=1,k得到xi的Shapley值(Si);i = 1,k。在回归模型 z=Xb+u 中,OLS 给出了 R2 的值。所有 Si 的总和;i=1,2, ..., k 等于 R2。因此,OLS R2 已被分解。一旦已知所有 Shapley 值份额,就可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始比例和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。k 获得 xi 的 Shapley 值 (Si);i = 1,k。在回归模型 z=Xb+u 中,OLS 给出了 R2 的值。所有 Si 的总和;i=1,2, ..., k 等于 R2。因此,OLS R2 已被分解。一旦已知所有 Shapley 值份额,就可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始比例和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。k 获得 xi 的 Shapley 值 (Si);i = 1,k。在回归模型 z=Xb+u 中,OLS 给出了 R2 的值。所有 Si 的总和;i=1,2, ..., k 等于 R2。因此,OLS R2 已被分解。一旦已知所有 Shapley 值份额,就可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始比例和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始尺度和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。可以通过使用任何适当的优化方法解决 Lipovetsky (2006) 建议的优化问题来检索系数(具有原始尺度和原点)。Mishra (2016) 提供了一个简单的算法和计算机程序。

有两篇很好的论文可以告诉你很多关于 Shapley 值回归的信息:

Lipovetsky, S. (2006)。逻辑回归中的熵准则和预测变量的 Shapley 值现代应用统计方法杂志,5(1),95-106。

米什拉,SK(2016)。Shapley 值回归和多重共线性的解决经济学杂志参考书目,3(3),498-515。

我还为 Shapely 回归编写了一个计算机程序(在 Fortran 77 中)。它可以在这里找到

在统计学中,“形状值回归”被称为“连续平方和的平均”。 Ulrike Grömping是这个包中一个名为relaimpo的 R 包的作者,她将此方法命名为基于这项工作 lmg,该工作计算当预测器与常用方法不同时具有相关的已知排序时的相对重要性。