我可以使用 t-sne 或 PCA 来减少课程数量吗?

数据挖掘 分类 主成分分析 特纳
2022-03-06 12:59:22

我想知道是否可以使用 t-sne 或 PCA 根据它们之间的相似性来减少类的数量。例如,如果我有 100 类 100 种不同的动物,并且想把所有的猫放在一个组中,把所有的狗放在一个组中等等(得到这 100 个类中的几组)。

2个回答

没有。t 分布随机邻域嵌入 (t-SNE) 和主成分分析 (PCA) 是降维技术,也就是整齐数据帧的列数更少。

聚类将减少观察的数量,也就是减少整齐数据帧的行数。特别是,您可能正在寻找层次聚类

如果你想减少你预测的类的数量,那么你可以手动将它们映射到一个更简单的集合(即映射贵宾犬、灰狗到狗),或者如果你没有领域知识,你可以对数据进行聚类并预测集群而不是它们的原始标签。

您可以在聚类之前使用 PCA 或 t-SNE 减少维数。如果您有许多特征(~>100),这是最佳实践,因为您经常会遇到高维的诅咒。