机器算法验证 - 推土机距离和最大平均差异 - 吾爱随笔录

推土机距离和最大平均差异

机器算法验证内核技巧两个样本瓦瑟斯坦二元性内核均值嵌入

2022-04-11 03:38:07

根据 Kantorovich-Rubinstein 对偶性，地球移动距离 (EMD)/Wasserstein 度量等效于最大平均差异 (MMD) 对吗？有关更详尽的说明，请参见此处。那么为什么最初的 Kernel MMD 论文将他们的方法与 EMD 进行比较（参见第 7.2 节的第一段），而 Alex Smola 等人的相应讲座似乎暗示它们是不同的指标。我觉得我快疯了，因为我一直假设每个人都知道 MMD 和 EMD 通过 Wasserstein GAN 论文是相同的（Gretton 等人在引入 WGAN 之前发表的论文，但我找不到任何人引用即使现在用谷歌搜索也是平等的），但现在阅读这些论文我觉得向上是向下，向下是向上。

1个回答

不，它们不一样。

首先，让我们从一个更通用的框架开始，以激发 EMD 或 MMD 的使用。假设我们想要将参数分布族拟合到经验分布，这意味着我们要解决以下最小化问题：其中测量两个分布之间的差异。例如，如果是 Kullback-Leibler 散度，则它渐近地等效于通常的最大似然框架。或者当是 -divergence（我省略了函数的细节）时，我们恢复了臭名昭著的原始 GAN。 $(\mu_{\theta})_{\theta}$ $\nu$

min_{θ} L (μ_{θ}, ν)

$\min_{\theta} \mathcal L(\mu_{\theta}, \nu)$

L

$\mathcal L$

L

$\mathcal L$

L

$\mathcal L$

ϕ

$\phi$

ϕ

$\phi$

现在，WGAN 只不过是选择作为 Wasserstein 距离，或者更准确地说，也有 -Wasserstein 距离，但它们都是等价的度量，在某些情况下）条件温和）。极大极小问题中的最大化就是 EMD 的对偶形式。 $\mathcal L$ $1$ $p$ $p \geq 1$

（奖励：如果你选择作为 MMD，那么你会发现一些叫做“生成矩匹配网络”的东西，但不要与 MMD-GAN 混淆，它们很接近，但后者是前者的概括）。 $\mathcal L$

接下来，让我们看看MMD和EMD有什么不同。

它们都属于称为积分概率度量的家族，这意味着形式为例如，如果是来自核再现希尔伯特空间的单位球的核函数，则我们恢复 MMD。或者如果是 -Lipschitz 函数的集合，那么我们以对偶形式恢复 EMD。这个族的特别之处在于，在某些温和的条件下，它具有收敛性的特征：
$\begin{aligned} d_{F} (μ, ν) = sup_{f \in F} (\int f d μ - \int f d ν) \end{aligned}$ $\begin{align*} d_{\mathcal F} (\mu, \nu) = \sup_{f \in \mathcal F} \Big( \int f d\mu - \int f d\nu \Big) \end{align*}$ $\mathcal F$ $\mathcal F$ $1$ $\mu_n \overset{\mathcal D}{\longrightarrow} \mu \Leftrightarrow d_{\mathcal F} (\mu_n, \mu) \to 0$ . 所以MMD和EMD在这个意义上是等价的。这不适用于 Kullback-Leibler 或总变异。
另一种查看它们差异的方法（我觉得更清楚）是通过定义为现在，让我们省略定义中的所有内容。我们关心的是当时，我们恢复 EMD 的定义（或更准确地说是最佳传输距离）。当时，我们恢复 MMD。
$\begin{aligned} L_{c, ϵ} (μ, ν) := min_{P \in Π (μ, ν)} ⟨ C, P ⟩ + ϵ H (P) \end{aligned}$ $\begin{align*} L_{c, \epsilon}(\mu, \nu):= \min_{P \in \Pi(\mu, \nu)}\langle C, P \rangle + \epsilon H(P) \end{align*}$ $\epsilon = 0$ $\epsilon \to \infty$

其它你可能感兴趣的问题

上一篇后验和似然之间的概念区别是什么？下一篇AdaBoost 可以用于回归吗？