我有大约 100 组具有整数 ID 的样本。例如,其中 3 个可能是:
a = [0, 1, 3, 4, 6...]
b = [1, 5, 9, 102...]
c = [1, 7, 10, 42...]
我希望将这些集合聚集/分组在一起,以便在每个集群中,所有元素彼此之间至少有 X% 的公共 ID,其中 X 是输入参数。
我正在考虑使用1 - %X 作为距离度量的凝聚聚类,但不确定如何修改它以说明每个集群“信息”是其中集合之间的公共 ID 集。任何建议都将不胜感激(包括不同的技术/算法聚类正是我想到的)