我对机器学习很陌生。
我知道我可以将一组离散值表示为 0/1 值的向量。例如,在特征集合 {a, b, c, d, e} 中,包含的子集{a, c} 可以表示为[1, 0, 1, 0, 0],包含的子集{c, d, e}可以表示为[0, 0, 1, 1, 1],这意味着我的维度与元素一样多,当您有有限(和少量)的元素。
但是现在,对于聚类任务,我想表示集合的集合,例如,表示集合{{a, c}, {c, d, e}}。我怎样才能做到这一点?在这里,基本的 0/1 方法不起作用,因为我将有2^n可能的组合。如果有的话,解决方法是什么?
编辑:这里是作为一个不那么抽象、更多业务问题的转录。我想根据他们的旅行找到人群。一次旅行包括一组访问过的城市和一组使用的交通工具。例如,人们可能已经{Rabat, Alger, Marrakech, Tunis, Hammamet}通过交通工具访问了集合中的城市,例如{car, plane, train}。旅行可以是{Rabat, Marrakech, plane}或{Alger, Marrakech, Tunis, car, train}。请注意,不考虑访问城市的顺序或使用车辆的顺序。
我想要查找集群的项目的一个示例可能是一个人进行了这两次旅行,表示为p1 = {{Rabat, Marrakech, plane}, {Alger, Marrakech, Tunis, car, train}}。