我有一个数据集,其中 9 个分类属性中只有 2 个。如何对其进行聚类分析?我正在使用 R。您对说明、操作方法、主题...有什么建议吗?这是我的数据集
谢谢
我有一个数据集,其中 9 个分类属性中只有 2 个。如何对其进行聚类分析?我正在使用 R。您对说明、操作方法、主题...有什么建议吗?这是我的数据集
谢谢
这是 R- 中混合类型数据的不错实现
https://dpmartin42.github.io/posts/r/cluster-mixed-types
这个问题就在这里 - K-Means clustering for mixed numeric and categorical data
和 Kaggle 的讨论主题——
https://www.kaggle.com/general/19741
有一些方法可以将您的分类数据映射到数字类型,然后您可以照常开展业务,或者选择适用于分类数据类型的相似性度量,在这种情况下,您可以选择计数频率等。
您将需要某种方法将分类数据转换为数值,或将数值转换为分类。做到这一点的一种方法(将分类转换为数字)是使用单热编码,您可以在其中查看您拥有的类别数量并制作该大小的向量。然后,您可以将每个数据点映射到一个向量,除了指定类别的位置(即 1)之外,其他任何地方都为 0。
此处对一种热编码进行了更好、更详细的解释:https ://machinelearningmastery.com/why-one-hot-encode-data-in-machine-learning/