聚类:处理分类数据,我们应该旋转和扩展吗?

数据挖掘 r 聚类 k-均值
2022-02-13 07:45:48

我是一名 SQLServer DBA,在这个工具的新版本中,有一些新功能可以集成R 脚本并轻松地将其与 DB 对象一起使用。听起来很酷。

但是要使用它,我们必须对统计数据和数据挖掘有所了解。对于像我这样的新手来说,很难找到友好且易读的文档。所以,我会要求一些关于集群的最佳实践。

我有一个包含数百条记录和 5 个特征的数据集,包括分类和数字。

关于分类数据,我有几个基本问​​题:

  • 如何管理分类数据?我从发现的文章中了解到,我可以将分类数据转换为布尔值并“旋转”它。如果 a 有一个包含分类数据的列(例如具有值 'a' 或 'b'),则创建新列,如 column_a 和 column_b 值 0 或 1 ?

  • 我应该始终居中/缩放这个新列吗?

1个回答

您需要先创建一个相异矩阵,然后再应用聚类技术。下面的链接有很多关于您的观点的答案。希望下面的内容就足够了:

https://stats.stackexchange.com/questions/24540/clustering-of-mixed-type-data-with-r