我正在研究基于不同患者基因表达数据的二元分类模型(健康/患病)。作为第二项任务,我想对这些患者进行分层并找到亚组。我预计实验中不同基因的总结模式将是结果的最强预测因子(差异共表达分析)。如果我需要遵循不包含 ID(在我的案例中为实验 ID)的规则,我该如何处理我的 ML 模型中组设置的重要性?
此外,我对相同的患者进行了重复测量,也希望在某些患者组之间存在显着差异——这是否意味着我也应该包括患者 ID,或者预定义一些组,或者使用所有可能有趣的患者特征作为特征?
这是我的数据当前的组织方式:
实验编号 | 基因 | 表达 | 患者编号 | 标签 |
---|---|---|---|---|
1 | 一种 | 11 | 1234 | 健康 |
1 | 乙 | 5 | 1234 | 健康 |
2 | 一种 | 3 | 4356 | 病态的 |
2 | 乙 | 9 | 4356 | 病态的 |
3 | 一种 | 13 | 1234 | 健康 |
3 | 乙 | 6 | 1234 | 健康 |