数据挖掘 - 实现 t-SNE 时如何均衡成对的亲和力困惑？ - 吾爱随笔录

数据挖掘降维特纳

2022-02-15 10:04:43

我正在尝试实现 t-SNE 算法：

我发现要计算成对的亲和力，我必须遵循这个：

我的问题是计算 $\sigma_i$ . 在维基百科中我发现：

高斯核的带宽 $\sigma_{i}$ , 以这样一种方式设置，即条件分布的困惑度等于使用二进制搜索的预定义困惑度。结果，带宽适应了数据的密度：较小的值 $\sigma_{i}$ 用于数据空间的密集部分。

我不明白这到底是什么意思。我该如何计算 $\sigma_i$ ?

2个回答

它只是意味着您应该通过二进制搜索设置带宽。它的工作方式是从预设的目标困惑度开始（Mark 的链接建议将 5 到 50 的值作为合理的值），并限制带宽。如果目标困惑度在边界困惑度定义的区间内，则迭代地将搜索空间减半，直到收敛到目标：

2^{H (p; σ_{大号})} < 磷 磷_{吨 一种 r G e 吨} < 2^{H (p; σ_{ü})}

$2^{H(p; \sigma_L)} < PP_\mathrm{target} < 2^{H(p; \sigma_U)}$

如果目标不在初始间隔内，则扩大间隔并重试。

您可以在 Laurens van der Maaten 的页面上找到各种实现：

其它你可能感兴趣的问题