使用 UMAP 投影数据时,我应该只使用我需要投影的样本还是整个数据集?

数据挖掘 机器学习 数据集 降维
2022-02-09 22:09:48

我有一个神经网络,可以将我的数据样本映射到 64 维嵌入。我希望通过二维投影来可视化其中的一些嵌入(30 到 600 之间),并且我计划使用 umap 来做到这一点。提供从数据集中采样的更多嵌入以及我想要投影的嵌入是否有助于算法识别流形并提高投影质量?

1个回答

是的,更多的数据将提高 UMAP 可以生成的嵌入质量。虽然 UMAP 通常在子采样下有些鲁棒/稳定,但使用更多数据可以获得明显更好的结果。还值得注意的是,大多数 UMAP 实现并不是为非常小的数据集设计的(它们做出了一些假设数据集大小合理的优化选择)。在实践中,最好不要使用少于 100 个数据样本的 UMAP。