我有一个包含 29 个细胞系的数据集和测试药物的IC50值。我想找到每个细胞系(近 31000 个基因)的基因表达谱与 IC50 值之间的关系。
我的问题是大量的自变量(基因)和少量的样本(细胞系)。我正在尝试使用 Lasso 执行线性回归以减少基因数量,将样本分为 14 个细胞系的训练组和 15 个细胞系的测试组。通过在 29 个样本中随机抽样来进行划分。问题是 Lasso 不稳定,每次训练模型都会得到不同的结果。
所以我尝试使用 PCA 降低维度,但据我所知,当协变量的数量大于样本数量时,PCA 不能很好地工作。这是真的?
您能否建议我在样本数量较少时进行某种稳健的回归?