机器算法验证 - 核二样本检验与维数诅咒 - 吾爱随笔录

核二样本检验与维数诅咒

机器算法验证非参数内核技巧高维两个样本

2022-04-13 02:05:33

Gretton 等人描述了 Kernel Maximum Mean Discrepancy，一种分布之间距离的度量。为了比较两个分布，事实证明你可以做得比取密度估计之间的 L2 距离要好得多。如第 3.3.1 节所述，后一种方法受到维度灾难的影响，而它们的内核 MMD 则没有。

我理解为什么高维密度估计是一个非常困难的问题：您需要更多点才能“填满所有空间”。但是，我不清楚为什么内核 MMD 在高维度上也不会受到影响。事实上，他们展示了它在高维度上表现更好的示例（例如图 5B）。

如果您正在使用带有内核 MMD 的 RBF 高斯内核，为什么您不会遭受维度灾难？我的理解是，在高维中，“所有点都彼此相距相等”，并且由于高斯核是欧几里德距离的函数，为什么它的性能在高维中没有下降？它可能与这里提到的“不均匀的祝福”有关吗？

简单来说：为什么Kernel MMD的性能在高维上不受影响？

3个回答

只是在翻阅 MMD 论文时碰巧看到了这篇文章。在双样本测试的情况下，考虑到给定水平下的测试能力，答案是它确实受到高维度的影响。

以前的实验可能会产生误导，因为他们没有选择公平的替代方案进行测试。例如，考虑 $P=\mathcal N(0,I)$ 和 $Q=\mathcal N(\mu, I)$ ，所以 $P$ 和 $Q$ 仅在平均向量上有所不同。随着维度的增加，您可以选择 $\mu=[1,0,0,\ldots,0]$ 或者 $\mu=[1,1,1,\ldots,1]$ . 后者更容易区分，是他们实验中选择的。下面的论文修复了 Kullback-Leibler 之间的分歧 $P$ 和 $Q$ 适用于所有维度（例如，选择 $\mu=[1,0,0,\ldots,0]$ )，由 KLD 通常作为信息论中假设检验问题难度的量度这一事实指导。然后显示测试功率随着尺寸的增加而降低。

另请注意，上述选择并未考虑样本量。事实上，作者指出，修复 KLD 只是一种启发式方法。我们在这方面得到了一个新的结果，一旦草稿完成，我将发布一个链接。总而言之，修复 KLD 仍然是公平替代的合理策略。

查看这篇论文： “关于高维中基于核和距离的非参数假设检验的递减能力”

哦，当然，该方法深受维度灾难的影响。只是他们在本质上是参数化的替代方案下得出了结果，隐藏在 RKHS 符号后面并且没有太明确。

事实上，出于与您的问题完全相同的问题，Ery Arias-Castro、Bruno Pelletier 和 Venkatesh Saligrama 最近写了一篇论文来证明这一点（“记住维度的诅咒：任意维度中拟合优度测试的案例”，在arXiv上可用）。您应该阅读此内容以获得更详细的答案。

我发现 Houle 等人 (2010) 的论文“Can Shared-Neighbor Distances Defeat the Curse of Dimensionality”的介绍很有帮助。特别是，它们区分了承载相关信息和无关信息的维度。例如，两个具有分离均值的高斯分布簇随着维度的增加更容易分离。另一方面，如果添加“不相关”的特征（例如纯噪声）作为附加维度，则不会提高可分离性。

因此，在 Gretton 等人的图 5B 中，这很有意义。（2012），当在更高维度上分离高斯时，MMD 的性能有所提高。直观地说，由于高斯在每个新维度上都是“分离的”，因此可以将其视为“附加信息”，因此很有帮助。如果添加纯噪声作为附加维度，我预计 MMD 的性能会下降。事实上，正如@air 的引用所表明的那样，MMD 确实遭受了维度的诅咒。

然而，这并不意味着它在高维环境中并没有大大优于密度估计。高维的密度估计是一个非常困难的问题。下面是Wasserman 等人引用的表格。2006（第 6.5 节）显示了在密度为高斯且选择最佳带宽时确保在 0 处的相对均方误差小于 0.1 所必需的样本量：

样本量随着维度的增加而迅速增加。这是因为 L2 误差收敛为 $O(n^{-4/(4+d)})$ ，当使用最佳带宽时，其中 d 是维度。关键是要在高维度上进行密度估计，您需要大量样本。

我的直觉是，随着维数的增加，空间的“体积”呈指数级增长。因此，如果您要尝试通过将体积分成小超立方体并计算每个超立方体中的点数来进行密度估计，您将需要成倍增加的超立方体。另一方面，内核 MMD 只查看点之间的成对距离，而不是在点所在的空间上进行积分。因此，它不关心是否有大量的空白空间。当然，随着维数的增加，所有点都变得越来越等距，因此任何基于度量的方法的性能都会下降，但显然这种效果并不那么显着。

让我感到困惑的另一点是，尽管 Kernel MMD 允许您在不进行密度估计的情况下执行两个样本测试，但在第 3.3.1 节中，它们表明 Parzen 窗口密度估计之间的 L2 距离是 MMD 的一种特殊情况。因此，很明显，如果您选择他们描述的特定内核，那么内核 MMD 正是在进行密度估计，因此，我认为，随着维度的增加，它的扩展性也会一样差。确实，内核 $k (x,y) =\int \kappa(x - z) \kappa(y-z) dz$ 在 3.3.1 中派生，使用核 MMD 进行测试与获取密度估计之间的 L2 距离一致，正在对基础空间进行积分——就像在密度估计中一样——不像说，如果使用高斯 RBF 核。

其它你可能感兴趣的问题

上一篇双向重复测量线性混合模型下一篇每天花在给定网站上的时间分布会是什么样子？