我有一个数据集,其中包含数字数据和分类数据。这可以使用监督学习算法来完成,但我很想看看如何使用一些无监督学习算法对这些数据进行聚类(目前使用的是 K-Means 聚类算法)。
例如,Gender、None、Low、Medium、High、Breakfast、Lunch 和 Dinner 列以二进制形式表示。eg: Gender 代表 1 代表男性, 0 代表女性。而上述列的其余部分表示 0 表示不可用,1 表示可用。Meal 和Exercise 列也是分类的,但不是二元的。例如,在Meal中,如果是早餐那么1,午餐=2,晚餐=3。那么我们如何使用这种混合数据集进行聚类呢?请忽略事件列,因为它是目标列。
此外,在添加到任何类型的无监督学习算法之前,我们是否需要对其余的数值数据进行归一化?我们如何处理这些不同类型的分类数据?非常感谢您的指导。
谢谢。
