当层次聚类优于 k 意味着聚类?
K-Means与层次聚类
数据挖掘
聚类
k-均值
无监督学习
2021-10-12 17:43:42
1个回答
我会说层次聚类通常更可取,因为它既更灵活,而且对基础数据分布的隐藏假设更少。
使用 k-Means 聚类,您需要提前了解所需的聚类数量(这是“k”值)。此外,如果 (a) 您的数据没有很好地分离成类似球形的集群,(b) 您选择了一个不太适合您的数据形状的“k”,即您选择一个值太高或太低,或者 (c) 集群质心的初始值很奇怪(一种策略是运行一堆具有随机起始质心的 k-means 算法,并将一些常见的聚类结果作为最终结果)。
相比之下,层次聚类对数据分布的假设较少 - 唯一的要求(k-means 也共享)是可以计算每对数据点的距离。层次聚类通常将附近的点“加入”到一个集群中,然后将附近的点连续添加到最近的组中。你最终会得到一个“树状图”,或者一种连接图。通过在不同高度切割树状图,您可以使用该图来决定您的数据有多少个聚类。当然,如果您需要预先决定想要多少个集群(基于某种业务需求),您也可以这样做。层次聚类的计算成本可能更高,但通常会产生更直观的结果。
其它你可能感兴趣的问题