对混合了连续变量和分类变量的数据进行聚类

机器算法验证 r 聚类 分类数据 连续数据
2022-03-06 06:41:17

我有代表人类行为某些方面的数据。我想将它(无监督)聚类到某种行为档案中。现在,我的一些变量是分类的(有 2 个或更多类别),有些是连续的(大多数是百分比)。一些变量甚至更复杂,其中一类具有进一步的连续性,而另一类则没有这样的附加数据。

我的问题是关于如何对这些数据进行分类。处理它的(常见的?)方法是什么?

我不需要代码或任何东西,而是需要一些参考资料或指导来帮助我进一步了解如何应对这一挑战。

如果您知道R有助于此类分析的功能,那将是很好的,但这不是必需的。

谢谢。

2个回答
  1. 大量时间了解数据的相似性。
  2. 在专门为您的特定数据集设计的专门相似性度量中将您的相似性概念正式化(您可能无法使用开箱即用的相似性)。
  3. 使用可以使用任意相似点​​的聚类算法,例如层次聚类、DBSCAN、亲和传播或谱聚类。

有关R 包,请参阅https://cran.r-project.org/web/packages/ClustOfVarClustOfVar它似乎为变量类型的混合实现了一些可用的最佳聚类方法。