层次聚类可以用树状图表示。在某个级别切割树状图会给出一组簇。在另一个层次上切割会产生另一组集群。你会如何选择在哪里切割树状图?有什么我们可以考虑的最佳点吗?如果我查看随时间变化的树状图,我应该在同一点切割吗?
在哪里切割树状图?
由于聚类分析本质上是一种探索性方法,因此没有明确的答案;由此产生的层次结构的解释是依赖于上下文的,从理论的角度来看,通常有几个解决方案同样好。
在一个相关问题中给出了几条线索,在实践中使用了哪些凝聚层次聚类的停止标准?我通常使用视觉标准,例如轮廓图,以及某种数值标准,例如 Dunn 的有效性指数、Hubert 的 gamma、G2/G3 系数或校正后的 Rand 指数。基本上,我们想知道原始距离矩阵在聚类空间中的近似程度,因此对共相相关性的测量也是有用的。我还使用具有多个起始值的 k-means 和间隙统计量( mirror ) 来确定最小化内部 SS 的集群数量。与 Ward 层次聚类的一致性给出了集群解决方案稳定性的概念(您可以使用matchClasses()
在e1071包中)。
您将在 CRAN 任务视图集群中找到有用的资源,包括pvclust、fpc、clv等。另外值得一试的是clValid包(在Journal of Statistical Software中有描述)。
现在,如果您的集群随着时间的推移而变化,这就有点棘手了;为什么选择第一个集群解决方案而不是另一个?您是否期望某些人从一个集群移动到另一个集群,这是由于一个潜在的过程随着时间而演变的结果?
正如您在上一个问题中向您建议的那样,有一些措施试图匹配具有最大绝对或相对重叠的集群。查看比较聚类 - Wagner 和 Wagner 的概述。
真的没有答案。介于 1 和 N 之间。
但是,您可以从利润的角度考虑它。
例如,在营销中使用细分,这很像集群。
为每个人量身定制的消息(例如广告或信件)将具有最高的响应率。为平均值量身定制的通用消息将具有最低的响应率。话虽如此,为三个细分市场量身定制的三个消息将介于两者之间。这是收入方面。
为每个人量身定制的消息将具有最高的成本。为平均值量身定制的通用消息将具有最低的成本。为三个部分量身定制的三个消息将介于两者之间。
假设支付一个作家写一条自定义消息的费用为 1000,两个费用为 2000,依此类推。
假设使用一条消息,您的收入将是 5000。如果您将客户分成 2 个段,并为每个段编写量身定制的消息,您的响应率会更高。假设现在的收入是 7500。三个细分市场,响应率稍高,您的收入是 9000。再增加一个细分市场,您的收入是 9500。
为了使利润最大化,不断进行细分,直到细分的边际收益等于细分的边际成本。在此示例中,您将使用三个细分来最大化利润。
Segments Revenue Cost Profit
1 5000 1000 4000
2 7500 2000 5500
3 9000 3000 6000
4 9500 4000 5500
也许最简单的方法之一是图形表示,其中 x 轴是组数,y 轴是距离或相似度的任何评估指标。在该图中,您通常可以观察到两个不同的区域,即“最佳”聚类数线的“膝盖”处的 x 轴值。
还有一些统计数据可以帮助完成这项任务:Hubert' gamma、pseudo-t²、pseudo-F 或三次聚类标准 (CCC) 等。
还有“Clustergram:聚类分析的可视化和诊断”(附R代码)
不是真正的答案,而是工具箱的另一个有趣的想法。