这可能不是一个很好的问题,但我仍然会问在运行聚类算法之前进行 EDA 是否有益?
我知道 EDA 可以帮助我们对数据产生良好且有用的见解,这对于数据理解至关重要。如果我们抛开标准检查和操作,例如 - 移除异常值、缩放、移除常量值列、移除空值/“零”值列等,并且如果我们有 20-30 个特征。EDA 将如何帮助我生成良好且合理的集群?是否有必要在集群之前进行 EDA?
注意:我使用的是 k-means
这可能不是一个很好的问题,但我仍然会问在运行聚类算法之前进行 EDA 是否有益?
我知道 EDA 可以帮助我们对数据产生良好且有用的见解,这对于数据理解至关重要。如果我们抛开标准检查和操作,例如 - 移除异常值、缩放、移除常量值列、移除空值/“零”值列等,并且如果我们有 20-30 个特征。EDA 将如何帮助我生成良好且合理的集群?是否有必要在集群之前进行 EDA?
注意:我使用的是 k-means
您怎么知道在查看数据之前必须进行聚类分析?
抛开数据质量问题(你永远不应该这样做),最少的 EDA 将帮助你:
然后你应该做一些 EDA,以了解你选择的集群是什么。
编辑:基本上,它将帮助您回答此类问题:如何解释我的聚类结果?