我处于以下情况:
数据:患者级别的静态基线健康数据,40 个特征,稀疏(~ 25 个二元特征,许多 0 或许多 1 + 其他分类特征)
目的:将实例聚类到具有临床意义的亚群或临床背景中,以了解处于风险中的亚群(关于后续结果)
考虑的方法 (请参阅这篇简短的博客文章(阅读 2 分钟)了解其基本原理):
- 使用所有特征(不去噪或去除相关性)在后续结果上拟合随机森林
- 使用树叶中的共现来获得患者的相似度矩阵
- 变成距离矩阵
- 使用此距离矩阵对患者进行聚类
我的问题如下:
- 我只发现使用这种方法进行无监督聚类的文献(即在随机目标变量上学习 RF):Shi and Horvath 2016和Dalleau 2018(未发表)。有没有人对这些方法有一般的见解(其他参考资料,个人经验......)?
- 您是否知道任何有关使用 RF 来创建相似矩阵的有监督的文章(提及或不提及聚类)?