机器算法验证 - SNE 与 t-SNE 的相似概率 - 吾爱随笔录

SNE 与 t-SNE 的相似概率

机器算法验证机器学习降维特纳

2022-03-31 05:43:19

在原始 tSNE 论文（van der Maaten 和 Hinton 2008，使用 t-SNE 可视化数据）中，随机邻域嵌入 (SNE) 的相似概率在第 2 节中定义为

p_{j | i} = \frac{\exp (- | | x_{i} - x_{j} | | / 2 σ_{i}^{2})}{\sum_{k \neq i} \exp (- | | x_{i} - x_{k} | | / 2 σ_{i}^{2})}

$p_{j|i} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma_{i}^{2})}{\sum_{k \neq i}{\exp(-||x_{i} - x_{k}||/2\sigma_{i}^{2})}}$

t 分布随机邻域嵌入 (t-SNE) 的概率在第 3 节中定义为

p_{i j} = \frac{\exp (- | | x_{i} - x_{j} | | / 2 σ^{2})}{\sum_{k \neq l} \exp (- | | x_{k} - x_{l} | | / 2 σ^{2})} .

$p_{ij} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma^{2})}{\sum_{k \neq l}{\exp(-||x_{k} - x_{l}||/2\sigma^{2})}}.$

根据我之前的理解，SNE 和 tSNE 的区别仅在于 q_{ij} 的公式 ij}使用高斯分布，而 tSNE 使用学生的 t 分布。但是以上两个公式也不同；为什么？ $q_{ij}$ $q_{ij}$

我的问题是关于第二个公式：和迭代器是从哪里来的？那就是是吗？的迭代器和也让我感到困惑。 $k$ $l$ $\sigma$ $\sigma_{i}$ $k$ $l$ $q_{ij}$

1个回答

我认为该论文将联合分布（不是条件分布！）定义为

p_{i j} = \frac{\exp (- | | x_{i} - x_{j} | | / 2 σ^{2})}{\sum_{k \neq l} \exp (- | | x_{k} - x_{l} | | / 2 σ^{2})},

$p_{ij} = \frac{\exp(-||x_{i} - x_{j}||/2\sigma^{2})}{\sum_{k \neq l}{\exp(-||x_{k} - x_{l}||/2\sigma^{2})}},$

但他们不使用它，而是定义

p_{i j} = \frac{p_{j | i} + p_{i | j}}{2} .

$p_{ij}=\frac{p_{j|i}+p_{i|j}}{2}.$

如论文中所述，原始 SNE 和 tSNE 在两个方面有所不同：

t-SNE 使用的成本函数与 SNE 使用的成本函数在两个方面有所不同：（1）它使用了由 Cook 等人简要介绍的具有更简单梯度的 SNE 成本函数的对称版本。（2007）和（2）它使用Student-t分布而不是高斯分布来计算低维空间中两点之间的相似度。t-SNE 在低维空间中采用重尾分布来缓解 SNE 的拥挤问题和优化问题。

根据问题编辑更新：两种情况下的分母只是标准化以确保 i(p(j/i) 上的总和和 i&j(p(i,j) 上的总和为 1，两者的基本要求是分布。

此外，由于这里有一个高斯，我们将 sigma 作为标准偏差。在第一种情况下，有 i 高斯，我们可以采用一个共同的标准偏差，但是我们选择使 sigma 取决于一个点周围的邻居的密度。如果一个点在距离 x 内有大量邻居，则与稀疏区域中的点的条件分布相比，条件分布应该下降得更快。

其它你可能感兴趣的问题

上一篇“不确定性范围”与“置信区间” - 有什么区别，哪个是首选？下一篇具有时间相关协变量的区间截尾生存分析