我有一个包含 10,000 个基因的数据集,如下所示
person gene1 gene2 ... gene10000 ethnic
1 0 1 1 asian
2 1 0 1 European
每行表示一个人的 DNA 中是否有基因。我们正在尝试根据上面的数据对不同的种族进行分类。但首先我们想使用一些聚类算法来可视化集群对于不同种族的外观。我们不会使用这种聚类算法对组进行分类,它只会用于可视化它的外观,如果我们有很好的单独的集群或重叠的集群等。
请为此类数据集推荐一些聚类算法。另外,维度是 10000。这会是聚类的问题吗?我应该先使用一些降维算法吗?如果有,请给出您的建议。提前致谢。