分类属性聚类

数据挖掘 r 聚类 分类数据
2022-02-16 19:19:52

我有一个数据集,其中 9 个分类属性中只有 2 个。如何对其进行聚类分析?我正在使用 R。您对说明、操作方法、主题...有什么建议吗?这是我的数据集

谢谢

2个回答

这是 R- 中混合类型数据的不错实现

https://dpmartin42.github.io/posts/r/cluster-mixed-types

这个问题就在这里 - K-Means clustering for mixed numeric and categorical data

和 Kaggle 的讨论主题——

https://www.kaggle.com/general/19741

有一些方法可以将您的分类数据映射到数字类型,然后您可以照常开展业务,或者选择适用于分类数据类型的相似性度量,在这种情况下,您可以选择计数频率等。

您将需要某种方法将分类数据转换为数值,或将数值转换为分类。做到这一点的一种方法(将分类转换为数字)是使用单热编码,您可以在其中查看您拥有的类别数量并制作该大小的向量。然后,您可以将每个数据点映射到一个向量,除了指定类别的位置(即 1)之外,其他任何地方都为 0。

此处对一种热编码进行了更好、更详细的解释:https ://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/