数据挖掘 - 如何识别与分类数据匹配的集群？ - 吾爱随笔录

我正在寻找一些方向来研究解决这个问题的正确途径：

我的公司让我们所有的员工都参加了“StrengthFinders”测试，结果是每个员工都从可能的 34 项优势列表中被分配了他们的前 5 个（排序的）“优势”。我们有 500 名员工。我应该找出所有在 5 个优势上相互匹配的员工（顺序不重要），以及在 5 个优势中的 4 个相互匹配的员工（同样，顺序无关紧要）。我可能有多个组匹配不同的优势集，例如：第 1 组：Billy、Sally、Michael 有优势 A、H、I、K、Z 第 2 组：Bobby 和 Suzy 有 A、B、L、S 优势， W

对于 5 人中有 4 人的优势匹配的情况，我可能有来自上述第 1 组的相同人员，再加上优势为 A、H、M、K、Z 的乔；和赛斯，他们的强项是 A、H、G、K、Z。我希望 5 分之 4 的情况比 5 分之 5 的情况更多。

优势本质上是分类的，所以到目前为止我所读到的主要是围绕连续数值变量的聚类。

我正在寻找一种算法方法来识别这种情况下的集群和这些集群的成员。我想我可以通过在 Excel 中反复对数据进行排序来做到这一点，但我相信必须存在更好的方法，我请你指出我的方向。谢谢你。