设置中的回归(使用 30k 预测因子和约 30 个样本从基因表达预测药物效率)p ≫ Np≫N

机器算法验证 回归 主成分分析 特征选择 套索 正则化
2022-04-05 05:58:22

我有一个包含 29 个细胞系的数据集和测试药物的IC50值。我想找到每个细胞系(近 31000 个基因)的基因表达谱与 IC50 值之间的关系。

我的问题是大量的自变量(基因)和少量的样本(细胞系)。我正在尝试使用 Lasso 执行线性回归以减少基因数量,将样本分为 14 个细胞系的训练组和 15 个细胞系的测试组。通过在 29 个样本中随机抽样来进行划分。问题是 Lasso 不稳定,每次训练模型都会得到不同的结果。

所以我尝试使用 PCA 降低维度,但据我所知,当协变量的数量大于样本数量时,PCA 不能很好地工作。这是真的?

您能否建议我在样本数量较少时进行某种稳健的回归?

3个回答

31000 个基因中的大多数在细胞系之间的表达不太可能有很大差异(至少在适当标准化时),因此它们没有为问题添加任何信息。

对于像这样的实际生物学问题,集中研究绝对表达水平相对较高的基因可能会有所帮助。这样就可以更容易地验证这 29 个细胞系的结果,然后应用和测试您对超出您现在正在检查的细胞系的预测,例如使用标准 PCR 而不是用于检查 31000 个基因的昂贵微阵列或 RNAseq 方法一次。

首先 ( a ) 将您的分析限制在高度表达的基因上,这些基因的标准化表达水平在细胞系之间具有最大的差异(通常在基因表达工作中以对数尺度)并且与 IC50 值的关系最接近,因此您的棘手问题成为一个难度较小的问题。然后(b)结合来自不同基因的信息,这些基因的表达水平在细胞系中共同变化。pnp>n

The Elements of Statistical Learning (第二版)第 18.6 节中描述的“有监督的主成分”方法提供了实现此目的的书面方法。基因根据与 IC50 值的单变量关系进行排序(实现目标a,如果您仅限于高表达基因),并且对与 IC50 具有最高关系的基因子集执行 PCA(实现目标b)。PCA 中包含的基因数量和保留的主要成分数量通过交叉验证来选择。

我相信你会得到不同答案的原因是因为你有,即比样本更多的变量。在这种情况下,LASSO 只能选择变量,我认为会出现收敛问题。虽然没有处理此问题的经验,但据说Elastic Net克服了其中一些问题p>>nn

我可以建议您在交叉验证可变性稳定性选择下套索解决方案的论文稳健性(Meinshausen 和 Bruhlman,2009 年)吗?

他们提出了套索估计器的稳定版本。