极高维空间上的 t-SNE

数据挖掘 主成分分析 特纳
2022-01-31 13:55:54

我成功地将 t-SNE 应用于数字手写数据集。在 D=64 维空间(即 8x8 像素)中 n=3823 个数据点(即手写数字)。工作得很好。

现在我想在 D≈3000 维空间中聚类 n≈60 个数据点。即使经过多次迭代,t-SNE 的表现也比 PCA 差得多。

不建议应用 t-SNE 的维度数量(相对于数据点数量)是否存在上限?

2个回答

t-SNE 没有理论上限。然而,实际上,将越来越高的维度减少到越来越低的维度在计算上将变得越来越不切实际。这是因为 t-SNE 构建了高维对象对上的概率分布。在您的问题中,3,000 维空间中的 60 个数据点比 64 维空间中的 3,823 个数据点的计算密集度更高。

此外,t-SNE 是一种降维技术,而不是一种聚类技术。您可以直接在高维空间中进行聚类。

TSNE主要用于高维数据的可视化。不建议使用 TSNE 进行聚类,因为它既不保留密度也不保留距离。它只是试图确保在高维度上接近的邻居在低维度上保持接近。但是,如果您在输出上应用任何基于密度或基于距离的聚类,它不会给您带来好的结果。它已在许多不同的数据集上进行了说明。** 避免在 TSNE 输出上聚类 **

现在关于维度,本文清楚地表明,即使在 Olivetti 人脸数据集的维度为 92×112 = 10,304 像素上,它也比 ISOMAP 等其他算法效果更好