为了分析来自银行业的数据集,我有数值和分类值。我将它们转换为使用 k 原型进行分析。
原始数据集:
修改后的数据集:
我应该在做 k 原型之前缩放数据集吗?
我如何确定要选择的最佳“k”(编码)?
我想执行:
library(clustMixType) lbd <- lambdaest(BPor) kpres <- kproto(BPor, 5, lambda = lbd) #Change '5' for every possible value of k. print(kpres)
然后,计算簇内误差的总和(选择小的)。