回归模型中的变量过多会影响推理吗?

机器算法验证 回归 特征选择 推理 偏见 过拟合
2022-03-24 03:07:06

回归模型可用于推断系数以描述预测变量关系或预测结果。我知道偏差-方差权衡,并且知道在回归中包含太多变量会导致模型过度拟合,从而对新数据做出糟糕的预测。这些过拟合问题是否扩展到对预测变量的推断?

假设我正在使用一个癌症数据集 (n=200),其中包括总生存期和数百个基因组标记。我对描述每个标记与生存之间的关系很感兴趣,并且想找出能够证明与生存相关的有力证据的标记。用所有标志物和临床因素(年龄、性别、治疗等)拟合模型,然后查看风险比、置信区间和 p 值来识别“重要”预测因子是否错误?用数百个参数构建模型感觉不对,但我不确定是否有应该避免这种方法的根本原因。这会产生多重比较问题吗?样本量是否对这种方法是否有效起作用?

根据我的经验,有些人会使用逐步模型选择(使用 p 值或 AIC)来根据最终 p 值识别重要的预测变量,但是从我所读到的内容来看,逐步选择过度夸大了 p 值,并且由于选择而提供了不可靠的推论偏见。我还尝试避免为每个预测变量建立单变量模型,因为省略的变量偏差会产生误导性效应估计。

我的模型的结果将产生假设,以优先考虑基因候选者进行实验研究。

2个回答

将所有预测变量倾倒到模型中的一个问题是会导致极端共线性,这会夸大您的标准误差并可能使您的结果无法解释。

Judea Pearl 指出了第二个问题,如果您的推理旨在模拟因果关系。在尝试通过包含所有可用的预测变量来“控制一切”时,您实际上可能会“解锁”新的混杂路径,并远离而不是靠近对因果关系的良好估计。在他的图形系统的语言中,如果您以对撞机或对撞机的后代为条件,您会产生混淆。

第三个问题,由于您的样本量有限,具有如此多预测变量的统计能力将很低,这将增加现在看起来像一个发现将证明不会在以后出现的可能性,遵循John Ioannidis (2005)的推理。

我当然不是癌症研究方面的专家,但我读过基因组标记(也称为遗传标记)与各种疾病的关系进行了研究。

我怀疑,为了揭示这些遗传标记的真正力量,人们可能想要控制接触可能与癌症有关的物质,尤其是与地理位置有关的物质。后者可以作为空气、水或食物库存中污染严重的区域的代理,或以新鲜水果(如芒果等)而闻名的被认为对免疫系统有益的地方。其他控制因素可能是年龄(作为代表免疫系统总体强度的非线性变量)。此外,收入水平可能是医疗保健服务的代表,也是健康状况更好的起点的可能指标。

此外,我对化疗和生存率的研究揭示了一个人的祖先可能带来的积极益处。例如,那些经历了长途海洋航行以寻找新栖息地的人的祖先(达尔文的适者生存)在化疗后显然具有更好的癌症存活率。

控制这些因素可以使评估遗传标记影响的统计过程更加准确(并且还可以允许在模型中包含更多这样的因素)。这里有一些研究提到了一些控制因素