我是序列分析的新手,我想知道如果基于最优匹配的相异矩阵的聚类分析的平均轮廓宽度 (ASW) 很低(大约 25),你会如何反应。得出结论认为几乎没有允许序列聚集的底层结构似乎合适吗?您是否可以忽略基于其他集群质量度量的低 ASW(我在下面粘贴了一些)?或者,在序列分析或随后的聚类分析期间做出的选择是否可能是造成低 ASW 数量的原因?
任何建议,将不胜感激。谢谢。
如果需要更多上下文:
我正在检查 20 多岁的人的 624 个工作时间不匹配序列(即,一个人喜欢在一周内工作的小时数与他们实际工作的小时数之间的不匹配)。我正在检查的所有序列的长度都是 10。我的序列对象有五个状态(M=想要更多时间,S=想要相同的时间,F=想要更少的时间,O=劳动力之外,U=失业)。
我还没有系统地说明 ASW 结果如何随不同的方法组合而变化。尽管如此,我还是尝试了中低 indel 成本(最大替代成本的 0.1 和 0.6——我更关心事件的顺序而不是它们的时间)和不同的聚类过程(ward、average 和 pam)。我的总体印象是反潜兵数量仍然很低。
也许低 ASW 结果是有道理的。我希望这些状态以各种不同的顺序出现,并且这些状态可以重复。删除重复的观察结果只会将 N 从 624 降低到 536。研究数据表明,确实存在很多我认为非常不同的多样性和序列,例如,一直想要相同时间的人,产生了不匹配,解决了不匹配,并在有和没有不匹配之间来回摆动。也许缺乏明显区分的集群与缺乏有趣的变化不同。尽管如此,微弱的聚类结果似乎让我没有一个很好的方法来总结序列。
Ward 方法的结果,其中 indel 设置为 2 的替代成本的 0.1 这些统计数据似乎表明 6 集群解决方案可能是好的。然而,ASW 很低——至少对于具有合理数量的集群的解决方案(2 或 3 太少)。
PBC HG HGSD ASW ASWw CH R2 CHsq R2sq HC
cluster2 0.56 0.78 0.75 0.38 0.38 110.76 0.15 241.65 0.28 0.14
cluster3 0.51 0.68 0.65 0.27 0.27 108.10 0.26 237.60 0.43 0.17
cluster4 0.54 0.74 0.71 0.25 0.25 88.66 0.30 203.72 0.50 0.14
cluster5 0.59 0.83 0.79 0.25 0.25 75.85 0.33 183.21 0.54 0.09
cluster6 0.59 0.85 0.82 0.24 0.25 66.94 0.35 164.51 0.57 0.08
cluster7 0.47 0.79 0.75 0.18 0.19 64.09 0.38 154.47 0.60 0.12
cluster8 0.47 0.81 0.77 0.20 0.21 59.47 0.40 152.36 0.63 0.11
cluster9 0.48 0.84 0.80 0.19 0.21 56.68 0.42 147.83 0.66 0.10
cluster10 0.47 0.86 0.82 0.19 0.21 53.24 0.44 140.18 0.67 0.08