数据挖掘 - 如何在 k-prototypes 中选择最优 k？ - 吾爱随笔录

为了分析来自银行业的数据集，我有数值和分类值。我将它们转换为使用 k 原型进行分析。

原始数据集：

修改后的数据集：

我应该在做 k 原型之前缩放数据集吗？

我如何确定要选择的最佳“k”（编码）？

我想执行：

library(clustMixType)

lbd <- lambdaest(BPor)

kpres <- kproto(BPor, 5, lambda = lbd) #Change '5' for every possible value of k.

print(kpres)

然后，计算簇内误差的总和（选择小的）。