如何将二元分类与患者分层相结合?

数据挖掘 聚类 二元分类
2022-02-13 10:52:37

我正在研究基于不同患者基因表达数据的二元分类模型(健康/患病)。作为第二项任务,我想对这些患者进行分层并找到亚组。我预计实验中不同基因的总结模式将是结果的最强预测因子(差异共表达分析)。如果我需要遵循不包含 ID(在我的案例中为实验 ID)的规则,我该如何处理我的 ML 模型中组设置的重要性?

此外,我对相同的患者进行了重复测量,也希望在某些患者组之间存在显着差异——这是否意味着我也应该包括患者 ID,或者预定义一些组,或者使用所有可能有趣的患者特征作为特征?

这是我的数据当前的组织方式:

实验编号 基因 表达 患者编号 标签
1 一种 11 1234 健康
1 5 1234 健康
2 一种 3 4356 病态的
2 9 4356 病态的
3 一种 13 1234 健康
3 6 1234 健康
1个回答

我开始写这篇文章作为评论,但我意识到我有太多话要说......我也不确定这是否是一个正确的答案,但希望它有用:

  • 我不确定我是否理解这里的“实验 id”代表什么,但是这种将其作为分组变量的想法对我来说似乎不是很好:模型将使用它作为潜在的解释目标的变量,我不确定这就是你想要的。
  • 我肯定会建议将一名患者的所有观察结果格式化为一个实例。该模型假设实例彼此独立,因此它不能使用共享患者 ID 的两个实例之间的关系。
  • 30 个不同的基因作为特征可能非常好,但这取决于你有多少实例作为训练数据。太少的实例和/或太多的特征可能导致过度拟合,即模型使用数据中偶然发生的细节作为模式。无论如何,这类问题有一些选择,特征选择将是最明显的一个。
  • 对于一个患者的重复测量,假设测量总是包括所有/大部分基因,这不一定是一个问题:不同的测量集可以用作不同的实例。然而,在这种情况下,分布中可能存在一些偏差,例如,如果多种测量值在健康患者中更为常见。一种解决方法是始终为每个患者包含 N 个实例,如果患者没有多组测量,则在需要时重复相同的测量。
  • 关于不同的患者组:我的第一个直觉是简单地为每个组训练一个不同的模型,这样您就可以观察模型(或它们的预测)的不同之处。
  • 如果目标是找到最重要的致病因素,我建议训练一个简单的决策树模型:决策树易于观察和解释,在树的顶部/根部具有最具辨别力的特征。不要犹豫,限制参数,特别是树的深度,以使结果可读。