在聚类一个包含近 3000 列和 50k 行的相当大的稀疏二进制矩阵之前,我正在使用降维步骤。
我的想法是使用 UMAP 将 3000 个维度嵌入到一个二维空间中,然后使用 HDBScan 对生成的 50,000 个二维点进行聚类。
我发现 UMAP 接受许多选项,例如metric、和n_neighbors,但我不知道什么应该是给我不同集群的最佳组合。对于在大多数情况下最有效的二进制数据,是否有任何关于使用 UMAP 降维的建议或最佳实践,或者我是否希望在找不到合适的组合之前使用参数?min_distspread