我有一个数据集(> 5000)。每个单独的数据记录都构造为多级 n 叉树(>200 个节点)。树节点标识符在树中是唯一的。但是相同的标识符用于表示整个数据集的相同类型的节点。我想根据记录之间的相似性将数据集分组为多个集群。记录通常具有相似的结构,除了一些记录修剪了一些分支。
这里有一些过于简化的例子。
basic type:
A - B - C
\- D - E - F
\- G - H - I
\- J
sample 1:
A
\- D - E - F
\- G - H - I
\- J
sample 2:
A - B - C
\- G - H - I
\- J
sample 3:
A - B - C
\- D - E - F
\- G - H - I
我不知道数据集中有多少种不同类型的树结构。估计10-30左右吧。这就是为什么我想通过对数据集进行聚类来更好地理解数据集。我想要“集群”,因为我想允许集群中的小变化,以便我可以拥有可控数量的集群用于分析目的。
任何想法?谢谢