回归模型可用于推断系数以描述预测变量关系或预测结果。我知道偏差-方差权衡,并且知道在回归中包含太多变量会导致模型过度拟合,从而对新数据做出糟糕的预测。这些过拟合问题是否扩展到对预测变量的推断?
假设我正在使用一个癌症数据集 (n=200),其中包括总生存期和数百个基因组标记。我对描述每个标记与生存之间的关系很感兴趣,并且想找出能够证明与生存相关的有力证据的标记。用所有标志物和临床因素(年龄、性别、治疗等)拟合模型,然后查看风险比、置信区间和 p 值来识别“重要”预测因子是否错误?用数百个参数构建模型感觉不对,但我不确定是否有应该避免这种方法的根本原因。这会产生多重比较问题吗?样本量是否对这种方法是否有效起作用?
根据我的经验,有些人会使用逐步模型选择(使用 p 值或 AIC)来根据最终 p 值识别重要的预测变量,但是从我所读到的内容来看,逐步选择过度夸大了 p 值,并且由于选择而提供了不可靠的推论偏见。我还尝试避免为每个预测变量建立单变量模型,因为省略的变量偏差会产生误导性效应估计。
我的模型的结果将产生假设,以优先考虑基因候选者进行实验研究。