如何在 k-prototypes 中选择最优 k?

数据挖掘 r 聚类 k-均值 分类数据 数值
2022-02-27 08:24:27

为了分析来自银行业的数据集,我有数值和分类值。我将它们转换为使用 k 原型进行分析。

原始数据集:

在此处输入图像描述

修改后的数据集:

  • 例如:Job(对于 1 到 12'cos 有 12 个级别)

在此处输入图像描述

我应该在做 k 原型之前缩放数据集吗?

我如何确定要选择的最佳“k”(编码)?

我想执行:

library(clustMixType)

lbd <- lambdaest(BPor)

kpres <- kproto(BPor, 5, lambda = lbd) #Change '5' for every possible value of k.

print(kpres)

然后,计算簇内误差的总和(选择小的)。

0个回答
没有发现任何回复~