用于聚类的基于随机森林的相似性矩阵:它的行为如何?

数据挖掘 聚类 随机森林 相似
2021-10-05 16:35:45

我处于以下情况:

数据:患者级别的静态基线健康数据,40 个特征,稀疏(~ 25 个二元特征,许多 0 或许多 1 + 其他分类特征)

目的:将实例聚类到具有临床意义的亚群或临床背景中,以了解处于风险中的亚群(关于后续结果)

考虑的方法 (请参阅这篇简短的博客文章(阅读 2 分钟)了解其基本原理):

  1. 使用所有特征(不去噪或去除相关性)在后续结果上拟合随机森林
  2. 使用树叶中的共现来获得患者的相似度矩阵
  3. 变成距离矩阵
  4. 使用此距离矩阵对患者进行聚类

我的问题如下:

  1. 我只发现使用这种方法进行无监督聚类的文献(即在随机目标变量上学习 RF):Shi and Horvath 2016Dalleau 2018(未发表)有没有人对这些方法有一般的见解(其他参考资料,个人经验......)?
  2. 您是否知道任何有关使用 RF 来创建相似矩阵的有监督的文章(提及或不提及聚类)?
2个回答

我最近在一次会议上展示了一张海报,我们使用了与您描述的集群相同的方法。一般来说,我认为这是一种很好的聚类方法,因为您可以获得与您感兴趣的结果或变量相关的距离的聚类。

对于一些见解,我有一些指示:1)当在树中获得共现时,取决于你有多少主题,这最终可能是一个非常稀疏的矩阵。要使矩阵不那么稀疏,您可以增加终端节点所需的最小样本数。2)得到相似度矩阵后,对此进行PCA,以行中的个体和列中的PC结束。获取此 PCA 空间中个体之间的距离,限制为您认为可接受的一些最高数量的组件。我推荐这个,因为如果你有很多案例,相似度矩阵可能会很大。

关于随机森林的原始书讨论了无监督使用和邻近性。

但我不知道这是否像宣传的那样闪亮。除了变量选择之外,我不知道这些技术的任何突出用途。