如何识别与分类数据匹配的集群?

数据挖掘 聚类 分类数据
2022-02-24 21:15:02

我正在寻找一些方向来研究解决这个问题的正确途径:

我的公司让我们所有的员工都参加了“StrengthFinders”测试,结果是每个员工都从可能的 34 项优势列表中被分配了他们的前 5 个(排序的)“优势”。我们有 500 名员工。我应该找出所有在 5 个优势上相互匹配的员工(顺序不重要),以及在 5 个优势中的 4 个相互匹配的员工(同样,顺序无关紧要)。我可能有多个组匹配不同的优势集,例如: 第 1 组:Billy、Sally、Michael 有优势 A、H、I、K、Z 第 2 组:Bobby 和 Suzy 有 A、B、L、S 优势, W

对于 5 人中有 4 人的优势匹配的情况,我可能有来自上述第 1 组的相同人员,再加上优势为 A、H、M、K、Z 的乔;和赛斯,他们的强项是 A、H、G、K、Z。我希望 5 分之 4 的情况比 5 分之 5 的情况更多。

优势本质上是分类的,所以到目前为止我所读到的主要是围绕连续数值变量的聚类。

我正在寻找一种算法方法来识别这种情况下的集群和这些集群的成员。我想我可以通过在 Excel 中反复对数据进行排序来做到这一点,但我相信必须存在更好的方法,我请你指出我的方向。谢谢你。

4个回答

您只有 500 个数据点...

Excel 当然是最糟糕的工具。

无论如何,建立一个字典。将每个人都放在那里 6 次:1 次全部五种力量,5 次省略一种力量。然后您可以轻松识别最大的组,并且您还可以轻松执行各种完成操作:如果您已经识别出具有优势 ABCDE 的组,您可以使用字典添加所有具有 ABCD 等的组。

为 34 个特征中的每一个分配一个唯一的质数。

计算每个人的 5 个素数的乘积。

比较每个人的价值以找到匹配项。

要从 5 个特征中找到 4 个匹配的特征,请从 5 个特征中的 4 个中制作产品。你会发现 5 种独特的组合。1*2*3*4、1*2*3*5、1*2*4*5、2*3*4*5、1*3*4*5。再次比较这些值以找到 4 度匹配。

您可以尝试专门用于处理分类值的 k-modes 或 ROCK。我自己没有经验,但你可以看看:

实现:

如果我是你,我会将其视为关联挖掘问题。您很可能必须对此类分析的数据进行预处理,但这应该不会太难。

这是R中的一个例子