在原始 tSNE 论文(van der Maaten 和 Hinton 2008,使用 t-SNE 可视化数据)中,随机邻域嵌入 (SNE) 的相似概率在第 2 节中定义为
t 分布随机邻域嵌入 (t-SNE) 的概率在第 3 节中定义为
根据我之前的理解,SNE 和 tSNE 的区别仅在于 q_{ij} 的公式 ij}使用高斯分布,而 tSNE 使用学生的 t 分布。但是以上两个公式也不同;为什么?
我的问题是关于第二个公式:和迭代器是从哪里来的?那就是是吗?的迭代器和也让我感到困惑。
在原始 tSNE 论文(van der Maaten 和 Hinton 2008,使用 t-SNE 可视化数据)中,随机邻域嵌入 (SNE) 的相似概率在第 2 节中定义为
t 分布随机邻域嵌入 (t-SNE) 的概率在第 3 节中定义为
根据我之前的理解,SNE 和 tSNE 的区别仅在于 q_{ij} 的公式 ij}使用高斯分布,而 tSNE 使用学生的 t 分布。但是以上两个公式也不同;为什么?
我的问题是关于第二个公式:和迭代器是从哪里来的?那就是是吗?的迭代器和也让我感到困惑。
我认为该论文将联合分布(不是条件分布!)定义为
但他们不使用它,而是定义
如论文中所述,原始 SNE 和 tSNE 在两个方面有所不同:
t-SNE 使用的成本函数与 SNE 使用的成本函数在两个方面有所不同:(1)它使用了由 Cook 等人简要介绍的具有更简单梯度的 SNE 成本函数的对称版本。(2007)和(2)它使用Student-t分布而不是高斯分布来计算低维空间中两点之间的相似度。t-SNE 在低维空间中采用重尾分布来缓解 SNE 的拥挤问题和优化问题。
根据问题编辑更新:两种情况下的分母只是标准化以确保 i(p(j/i) 上的总和和 i&j(p(i,j) 上的总和为 1,两者的基本要求是分布。
此外,由于这里有一个高斯,我们将 sigma 作为标准偏差。在第一种情况下,有 i 高斯,我们可以采用一个共同的标准偏差,但是我们选择使 sigma 取决于一个点周围的邻居的密度。如果一个点在距离 x 内有大量邻居,则与稀疏区域中的点的条件分布相比,条件分布应该下降得更快。