关于变量选择的更明确的讨论

机器算法验证 回归 特征选择 模型选择
2022-02-13 04:06:34

背景

我正在从事医学临床研究,并参加了几门统计学课程。我从来没有发表过使用线性/逻辑回归的论文,并且想正确地进行变量选择。可解释性很重要,所以没有花哨的机器学习技术。我已经总结了我对变量选择的理解——有人介意澄清任何误解吗?我发现了两(1)个与此类似的(2) 个 CV 帖子,但它们并没有完全回答我的担忧。任何想法将不胜感激!最后我有 3 个主要问题。

问题与讨论

我的典型回归/分类问题有 200-300 个观察值,15% 的不良事件率(如果分类),以及 40 个变量中的 25 个变量的信息,这些变量在文献中被声称具有“统计显着”效应或看似合理由领域知识感知。

我将“统计显着性”放在引号中,因为似乎每个人和他们的母亲都使用逐步回归,但Harrell (3) 和Flom (4) 似乎不喜欢它,原因有很多。Gelman 博客文章讨论(5)进一步支持了这一点。如果这是真正的探索性分析,或者对预测感兴趣并涉及交叉验证方案,似乎唯一可以接受的实时时间。特别是由于许多医学合并症存在共线性和研究的样本量较小,我的理解是文献中会有很多假阳性;这也使我不太可能相信文献中包含的潜在变量。

另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p < 0.2)。由于此 StackExchange 帖子(6)中概述的原因,这似乎不正确或至少具有误导性。

最后,在机器学习中似乎很流行的一种自动化方法是使用惩罚,如 L1(Lasso)、L2(Ridge)或 L1+L2 组合(Elastic Net)。我的理解是,这些没有像 OLS 或逻辑回归那样简单的解释。

Gelman + Hill 提出以下建议:

格尔曼

在我的统计课程中,我还记得使用 F 检验或偏差分析来比较完整模型和嵌套模型,以逐个变量进行模型/变量选择。这似乎是合理的,但是系统地拟合顺序嵌套模型以找到导致每个 df 偏差最大下降的变量似乎可以很容易地自动化(所以我有点担心)并且似乎它也存在顺序问题你测试变量包含。我的理解是,这也应该通过调查多重共线性和残差图(残差与预测)来补充。

问题:

  1. 格尔曼总结是要走的路吗?你会在他提出的策略中增加或改变什么?

  2. 除了纯粹考虑潜在的交互和转换(这似乎很容易产生偏见/错误/遗漏),还有其他方法可以发现潜在的交互和转换吗?向我推荐了多元自适应回归样条 (MARS),但我被告知非线性/转换不会转化为标准回归模型中的相同变量。

  3. 假设我的目标很简单:比如说,“我想估计 X1 在 Y 上的关联,只考虑 X2”。简单地回归 Y ~ X1 + X2,报告结果,而不参考实际预测能力(可能通过交叉验证 RMSE 或准确度测量)是否足够?这是否会根据事件率或样本大小而变化,或者 R^2 是否超低(我知道 R^2 不好,因为您总是可以通过过度拟合来增加它)?我通常对推理/可解释性比优化预测能力更感兴趣。

示例结论:

  1. “控制 X2,相对于 X1 的参考水平,X1 与 Y 没有统计学上的显着相关性。” (逻辑回归系数)
  2. “X1 不是 Y 的统计显着预测因子,因为在模型中,偏差的下降相对于 df 的变化还不够。” (偏差分析)

交叉验证总是必要的吗?在这种情况下,可能还想通过 SMOTE、采样等对类进行一些平衡。

2个回答

Andrew Gelman 在统计界绝对是一个受人尊敬的名字。他的原则与该领域其他“大人物”所做的一些因果建模研究密切相关。但我认为鉴于您对临床研究的兴趣,您应该咨询其他来源。

我松散地使用“因果”这个词(和其他人一样),因为我们必须在从观察数据执行“因果推理”和断言变量之间的因果关系之间划清界限。我们都同意随机对照试验是评估因果关系的主要方式。我们很少根据随机化假设对此类试验中的任何内容进行调整,只有少数例外 ( Senn, 2004 )。观察性研究有其重要性和实用性(Weiss,1989 年),基于反事实的方法从观察数据中进行推断被认为是一种哲学上合理的方法(Höfler,2005 年)。它通常非常接近 RCT 中测量的使用效率(Anglemyer,2014 年)。

因此,我将专注于观察数据的研究。我对 Gelman 建议的争论点是:模型中的所有预测变量以及它们在单个感兴趣的暴露和单个感兴趣的结果之间假定的因果关系都应该先验地指定。根据一组主要发现之间的关系,加入和排除协变量实际上是在引入“Munchausen 统计网格”的一个特例(Martin,1984 年)。一些期刊(并且这种趋势正在流行)会立即拒绝任何使用逐步回归来确定最终模型的文章(Babyak,2004),我认为这里的问题以类似的方式出现。

模型中包含和排除协变量的基本原理在:Judea Pearl's Causality ( Pearl, 2002 ) 中进行了讨论。它可能是理解统计推断、回归和多变量调整原理的最佳文本之一。实际上,Sanders 和 Greenland 所做的任何事情都具有启发性,特别是他们关于混淆的讨论,遗憾的是,该建议列表中省略了这一点(Greenland 等人,1999)。可以根据与因果模型的图形关系为特定协变量分配标签。诸如预后、混杂因素或精度变量之类的名称保证将其作为协变量包含在统计模型中。应该省略因果路径之外的中介、对撞机或变量。这些术语的定义是严格的,在因果关系中有大量的例子。

鉴于这个小背景,我将一一解决这些问题。

  1. 这通常是一种合理的方法,但有一个主要警告:这些变量不能成为结果的中介。例如,如果您正在检查吸烟与身体健康之间的关系,并且您调整了肺功能,那就是在减弱吸烟的影响,因为它对健康的直接影响是降低肺功能。这不应该与混淆混淆,其中第三个变量是感兴趣的预测变量和感兴趣的结果的因果关系。模型中必须包含混杂因素。此外,过度调整会导致分析中出现多种形式的偏差。调解员和混杂因素被认为不是因为在分析中发现了什么,而是因为您作为主题专家 (SME) 所相信的。如果每个变量有 20 个或更少的观测值,或者在事件发生时间或逻辑分析中每个事件有 20 个观测值,则应该考虑使用条件方法。

  2. 这是一种出色的节能方法,不像倾向得分调整或 SEM 或因子分析那么复杂。我肯定会建议尽可能这样做。

  3. 我完全不同意。在分析中调整其他变量的目的是创建可以进行比较的层。错误指定混杂关系通常不会导致过度偏倚的分析,因此根据我的经验,省略交互项的残余混杂不是一个大问题。但是,您可以将感兴趣的预测变量与其他变量之间的交互项视为事后分析。这是一个假设生成程序,旨在将任何可能的发现(或缺乏发现)细化为 a。可能属于一个子组或 b。涉及两个环境和/或遗传因素之间的机械相互作用。

  4. 我也完全不同意这一点。它与基于验证性分析的回归方法不一致。你是中小企业。分析应该由问题而不是数据通知。根据因果模型的图形描述(使用 DAG 和 Pearl 等人的相关原则),自信地陈述您认为正在发生的事情,然后为您感兴趣的模型选择预测变量,拟合并讨论。只有作为次要分析,你才应该考虑这种方法,甚至根本不考虑。

机器学习在所有这一切中的作用是值得商榷的。一般来说,机器学习专注于预测而不是推理,这是数据分析的不同方法。您是对的,对于非统计社区来说,对惩罚回归的影响的解释不容易解释,这与 OLS 的估计不同,其中 95% CI 和系数估计提供了关联的度量。

从 OLS 模型 Y~X 中对系数的解释很简单:它是一个斜率,是 Y 比较组在 X 中相差 1 个单位的预期差异。在多元调整模型 Y~X1+X2 中,我们将其修改为条件斜率:它是 Y 比较具有相同 X2 值的 X1 中相差 1 个单位的组的预期差异。在几何上,对 X2 进行调整会导致我们将 X1 与 Y 进行比较的三个空间的不同层或“横截面”,然后我们对每个层的结果进行平均。在 R 中,该coplot函数对于可视化这种关系非常有用。

这个宏伟的问题和@AdamO 的全面回答是 CV 如何定期更新我对人性的信念的一个典型例子。我的目标主要是提供一些方法来在更广泛的背景下欣赏这个答案(和 OP 的问题)。

首先,我敢断言,所有关于统计实践的可靠建议本质上都是警示性的——规定性的,而不是规定性的。例如,Gelman & Hill 的第 3 点,虽然表面上看是积极做某事(“考虑”)的建议,但实际上更好地理解为警告不要考虑具有强大影响的交互。直观地理解为对与在(多元)泰勒级数展开中选择最重要的项相关的直觉的诉求,这对我来说似乎没有异议。

其次,虽然 OP 正忙于接受比大多数博士生物统计学家更好的教育(通过跟进 AdamO 的引文),但 OP 还不如拿起 David A. Friedman 的Statistical Models and Causal Inference [1],健康的挑战将是发现假设回归应该是我们在临床研究中的主要工具。我特别推荐第 3 章,“统计模型和鞋革”,这也可以在此处以先前发布的形式 [2] 获得。(不要让期刊的名字让你失望;主要的教训来自约翰·斯诺对霍乱的调查。另请参阅这个答案,其中详细列出了这些教训。)

最后——也许这真的是弗里德曼的推论——应该提到的是,OP 提供的示例“结论”实际上属于论文的结果部分。尽早考虑如何对论文的真正结论讨论部分进行措辞是最健康的,以便医生、媒体,甚至越来越多的患者和他们英勇的非专业倡导者都能接触到。努力阅读医学文献。保持对这一终点的关注将有效地塑造统计分析的技术工作,并使其立足于它旨在描述的世界的现实,以及它旨在服务的需求。


  1. Freedman、David、David Collier、Jasjeet Singh Sekhon 和 Philip B. Stark。统计模型和因果推理:与社会科学的对话。剑桥; 纽约:剑桥大学出版社,2010 年。

  2. Freedman, David A. “统计模型和鞋革”。社会学方法论21 (1991): 291–313。doi:10.2307/270939。