在进行聚类之前,通过对特征(以及数据)进行探索性数据分析,我可以获得什么价值?

数据挖掘 机器学习 数据挖掘 聚类 无监督学习 k-均值
2022-02-28 22:55:41

这可能不是一个很好的问题,但我仍然会问在运行聚类算法之前进行 EDA 是否有益?

我知道 EDA 可以帮助我们对数据产生良好且有用的见解,这对于数据理解至关重要。如果我们抛开标准检查和操作,例如 - 移除异常值、缩放、移除常量值列、移除空值/“零”值列等,并且如果我们有 20-30 个特征。EDA 将如何帮助我生成良好且合理的集群?是否有必要在集群之前进行 EDA?

注意:我使用的是 k-means

1个回答

您怎么知道在查看数据之前必须进行聚类分析?

抛开数据质量问题(你永远不应该这样做),最少的 EDA 将帮助你:

  • 知道进行聚类分析是否相关(很少 imo)
  • 知道 K-means 是否是最好的聚类工具(很少 imo)
  • 了解集群的数量

然后你应该做一些 EDA,以了解你选择的集群是什么。

编辑:基本上,它将帮助您回答此类问题:如何解释我的聚类结果?