为什么在随机邻域嵌入中使用 Kullback-Leibler

机器算法验证 kullback-leibler 特纳
2022-03-18 00:28:34

随机邻域嵌入(和 t-SNE)依赖于原始空间和低维空间中的点分布之间的 Kullback-Leibler 散度。为什么?为什么不采用任何其他差异度量(Wasserstein、Jensen-Shannon、Kolmogorov-Smirnov ......)作者 Hinton 和 Roweis 简单地说:

嵌入的目的是尽可能匹配这两个分布。这是通过最小化成本函数来实现的,该成本函数是每个对象的原始分布和诱导分布之间的 Kullback-Leibler 散度之和。

没有给出任何理由。

2个回答

降维技术的动机通常是通过寻找数据的新表示来发现隐藏变量或发现结构。SNE 的目的是通过保留局部结构来采取不同的方法(例如与 PCA 相比),这是通过利用 KL 散度的不对称特性来完成的。

作为反距离的条件概率

看方程(1),注意条件概率可以解释为“反距离”,因为近点(低距离)被分配高概率,而远点(高距离)被分配低概率

(注意:在更严格的数学意义上,反距离名称显然不是真的,因为实际上是一组更大的数字R映射到一组较小的数字[0,1].)

利用 KL 的不对称性

与等式 (2) 中的对称成本函数相比,两种情况表现出差异。

  1. pi|j>>qi|j在高维空间中靠近而在低维空间中远离的点会受到严重惩罚。这很重要,因为这促进了当地结构的保护
  2. qi|j>>pi|j在高维空间中较远而在低维空间中较近的点受到的惩罚较轻。这对我们来说没问题。

因此,KL 散度的不对称性质和条件概率的定义构成了这种降维技术的关键思想。在下面,您可以看到这正是其他距离不能很好替代的原因。

那么,其他距离指标有什么问题呢?

Jensen-Shannon Divergence 实际上是 KL-Divergence 的对称化,由

JSD(Pi||Qi)=12KL(Pi||Qi)+12KL(Qi||Pi).

这完全失去了保留局部结构的特性,所以这不是一个好的替代品。

Wasserstein 距离可以直观地看作是直方图从一种状态到另一种状态的重新排列。两种方式的重新排列都是相同的,因此 Wasserstein 度量也是对称的,并且没有这个理想的属性。

Kolmogorov-Smirnov 距离是非参数的,这意味着我们不假设概率分布,但实际上结构在等式 (1) 中进行了描述。

f-分歧下的随机邻域嵌入 https://arxiv.org/pdf/1811.01247.pdf

本文尝试了五种不同的 f 散度函数:KL、RKL、JS、CH(卡方)、HL(海灵格)。

此外,该论文还讨论了哪些分歧强调了精确度和召回率方面的内容。