绘制或可视化更高维向量场
不知何故,我必须使用 t-sne,但我真的不知道如何。
由于您拥有博士学位,因此我的回答将很简短,这是一个很长的主题。
降维的目的是在低维映射中尽可能多地保留高维数据的重要结构。对于位于或靠近低维非线性流形的高维数据,通常更重要的是保持非常相似数据点的低维表示靠近在一起,这通常是线性映射不可能实现的。
T-distributed Stochastic Neighbor Embedding (t-SNE) 是一种将高维数据集转换为成对相似性矩阵的方法。t-SNE 能够很好地捕捉到高维数据的大部分局部结构,同时还能揭示全局结构,例如在多个尺度上存在集群。
随机邻域嵌入 (SNE) 首先将数据点之间的高维欧几里德距离转换为表示相似性的条件概率。数据点的相似性到数据点是条件概率,, 那会选择如果邻居是按照其概率密度在以. 对于附近的数据点,相对较高,而对于相距较远的数据点,几乎是无穷小的(对于高斯方差的合理值,)。
t-SNE 使用的成本函数与 SNE 使用的成本函数在两个方面有所不同:(1)它使用了由 Cook 等人简要介绍的具有更简单梯度的 SNE 成本函数的对称版本。(2007)和(2)它使用Student-t分布而不是高斯分布来计算低维空间中两点之间的相似度。t-SNE 在低维空间中采用重尾分布来缓解 SNE 的拥挤问题和优化问题。
一些 t-SNE 教程:
Laurens van der Maaten(原论文的作者)的网页涉及:Matlab、CUDA、Python、Torch、Julia、Java、R、JavaScript 等...
Distill 的交互式 t-SNE 降维网页:“How to Use t-SNE Effectively”。
GoogleTechTalks 视频 - “使用 t-SNE 可视化数据”。
CrossValidated.SE可能是一个更好的询问统计可视化的网站。