我有分类数据,我正在尝试使用此处提供的 GitHub 包来实现 k-modes 。我正在尝试在我的(大型)数据集中创建集群,例如 5-7 条记录,每条记录最相似。
然而,到目前为止,我还没有办法选择最佳的“k”,理想情况下,这会导致最大的轮廓分数。这将是理想的,因为 k-modes 将相异/相似性度量作为距离。因此,我假设剪影距离将根据这种差异定义的距离度量来衡量集群的距离/距离,从而建立剪影分数。我找不到这个的实现。
我可以在这里使用肘部方法吗?但是,我无法理解如何以编程方式确定这一点,而无需查看图表,因为我必须多次重复执行此过程。目前,一个想法是 - 找到成本大幅下降的 k。看看接下来的几个值是否会降低成本。如果是,选择这个作为k,如果不是..然后呢?在这一点上我有点困惑。
我在网上看,也发现了这个,我无法用 k 模式来解释。我正在寻找任何代码/建议来让我走上正确的道路。