t-SNE 中困惑参数背后的直觉

机器算法验证 降维 特纳 困惑
2022-03-20 15:30:31

在阅读Laurens van der Maaten 关于 t-SNE 的论文时,我们会遇到以下关于 perplexity 的陈述:

困惑度可以解释为对有效邻居数量的平滑度量。SNE 的性能对 perplexity 的变化相当稳健,典型值在 5 到 50 之间。

这个有效的邻居数量意味着什么?我是否应该将困惑值理解为该点最近邻居的预期数量xi? 但这意味着在我们的数据集中拥有恒定数量的组,随着观察次数的增加,我们也应该增加 perplexity 值,这似乎完全违反直觉,并且与建议的 5 到 50 之间的值范围不一致。

另一方面,正如这里所指出的,随着 perplexity 的值接近数据集中的点数,我们最终可能会得到一个完全没有聚类的可视化。

因此,我的问题是:困惑是否与集群中的预期点数相关,或者我只是误解了引用的摘录?一般来说,困惑背后的直觉是什么——它可以近似地预期还是设置它的唯一方法是尝试不同的值并直观地评估结果图?

2个回答

如果你写下原始论文中条件分布定义的困惑方程。它不会仅仅因为条件分布是离散的并且不是高斯分布而增加熵。这不是一个严格的术语,在原始论文中他们甚至没有详细讨论它......它与高斯熵完全不同......我认为这就是为什么 tsne 有时会给出非常令人困惑的结果...... .

是的,我完全同意你的看法,在我看来,困惑根本不会随 σ 单调增加。考虑两个extrame场景,当σ非常接近零时,当σ非常大时,在这两种情况下,困惑度是相等的。