推土机距离和最大平均差异

机器算法验证 内核技巧 两个样本 瓦瑟斯坦 二元性 内核均值嵌入
2022-04-11 03:38:07

根据 Kantorovich-Rubinstein 对偶性,地球移动距离 (EMD)/Wasserstein 度量等效于最大平均差异 (MMD) 对吗?有关更详尽的说明,请参见此处。那么为什么最初的 Kernel MMD 论文将他们的方法与 EMD 进行比较(参见第 7.2 节的第一段),而 Alex Smola 等人的相应讲座似乎暗示它们是不同的指标。我觉得我快疯了,因为我一直假设每个人都知道 MMD 和 EMD 通过 Wasserstein GAN 论文是相同的(Gretton 等人在引入 WGAN 之前发表的论文,但我找不到任何人引用即使现在用谷歌搜索也是平等的),但现在阅读这些论文我觉得向上是向下,向下是向上。

1个回答

不,它们不一样。

首先,让我们从一个更通用的框架开始,以激发 EMD 或 MMD 的使用。假设我们想要将参数分布族拟合到经验分布,这意味着我们要解决以下最小化问题: 其中测量两个分布之间的差异。例如,如果是 Kullback-Leibler 散度,则它渐近地等效于通常的最大似然框架。或者当 -divergence(我省略了函数的细节)时,我们恢复了臭名昭著的原始 GAN。(μθ)θν

minθL(μθ,ν)
LLLϕϕ

现在,WGAN 只不过是选择作为 Wasserstein 距离,或者更准确地说,也有 -Wasserstein 距离,但它们都是等价的度量,在某些情况下)条件温和)。极大极小问题中的最大化就是 EMD 的对偶形式。L1pp1

(奖励:如果你选择作为 MMD,那么你会发现一些叫做“生成矩匹配网络”的东西,但不要与 MMD-GAN 混淆,它们很接近,但后者是前者的概括)。L

接下来,让我们看看MMD和EMD有什么不同。

  • 它们都属于称为积分概率度量的家族,这意味着形式为 例如,如果是来自核再现希尔伯特空间的单位球的核函数,则我们恢复 MMD。或者如果 -Lipschitz 函数的集合,那么我们以对偶形式恢复 EMD。这个族的特别之处在于,在某些温和的条件下,它具有收敛性的特征:

    dF(μ,ν)=supfF(fdμfdν)
    FF1μnDμdF(μn,μ)0. 所以MMD和EMD在这个意义上是等价的。这不适用于 Kullback-Leibler 或总变异。

  • 另一种查看它们差异的方法(我觉得更清楚)是通过定义为 现在,让我们省略定义中的所有内容。我们关心的是当时,我们恢复 EMD 的定义(或更准确地说是最佳传输距离)。时,我们恢复 MMD。

    Lc,ϵ(μ,ν):=minPΠ(μ,ν)C,P+ϵH(P)
    ϵ=0ϵ