我有一个包含连续结果变量和一些混杂变量(如年龄、性别……)和许多基因表达(不仅仅是样本)的数据集。目标是找到与结果相关的相关基因。
现在的第一个想法是使用 LASSO(Tibshirani 1996)。关于整个过程出现了一些问题。
- 是否在变量选择阶段包括混杂变量并在没有正则化的情况下将它们保留在模型中?我已经看到包含这样的固定变量会改变选定的基因。
- 为了只选择稳定的基因,我使用了稳定性选择程序(Meinshausen 和 Bühlmann 2010)。在此过程中需要置信区间还是仅在基本 LASSO 中需要置信区间?
- 使用一些 LASSO 泛化(如组 LASSO 或更新的想法)来寻找相关的网络/基因组而不是单个基因是否也有意义?或者可以从 LASSO 中寻找与所选基因相关的基因,以使结果更具可解释性(例如,通过相关性聚类、节点回归、将 LASSO 与基于相关性的组分组……)?这可以在相同的数据集上完成还是需要新的测量?
- 可以分析LASSO 模型的残差吗?或者是否使用选定的变量构建普通回归并查看该模型?或者这里的程序是什么?
- 你会建议哪种其他方法?