背景
我正在从事医学临床研究,并参加了几门统计学课程。我从来没有发表过使用线性/逻辑回归的论文,并且想正确地进行变量选择。可解释性很重要,所以没有花哨的机器学习技术。我已经总结了我对变量选择的理解——有人介意澄清任何误解吗?我发现了两(1)个与此类似的(2) 个 CV 帖子,但它们并没有完全回答我的担忧。任何想法将不胜感激!最后我有 3 个主要问题。
问题与讨论
我的典型回归/分类问题有 200-300 个观察值,15% 的不良事件率(如果分类),以及 40 个变量中的 25 个变量的信息,这些变量在文献中被声称具有“统计显着”效应或看似合理由领域知识感知。
我将“统计显着性”放在引号中,因为似乎每个人和他们的母亲都使用逐步回归,但Harrell (3) 和Flom (4) 似乎不喜欢它,原因有很多。Gelman 博客文章讨论(5)进一步支持了这一点。如果这是真正的探索性分析,或者对预测感兴趣并涉及交叉验证方案,似乎唯一可以接受的实时时间。特别是由于许多医学合并症存在共线性和研究的样本量较小,我的理解是文献中会有很多假阳性;这也使我不太可能相信文献中包含的潜在变量。
另一种流行的方法是使用预测变量和自变量之间的一系列单变量回归/关联作为起点。低于特定阈值(例如,p < 0.2)。由于此 StackExchange 帖子(6)中概述的原因,这似乎不正确或至少具有误导性。
最后,在机器学习中似乎很流行的一种自动化方法是使用惩罚,如 L1(Lasso)、L2(Ridge)或 L1+L2 组合(Elastic Net)。我的理解是,这些没有像 OLS 或逻辑回归那样简单的解释。
Gelman + Hill 提出以下建议:
在我的统计课程中,我还记得使用 F 检验或偏差分析来比较完整模型和嵌套模型,以逐个变量进行模型/变量选择。这似乎是合理的,但是系统地拟合顺序嵌套模型以找到导致每个 df 偏差最大下降的变量似乎可以很容易地自动化(所以我有点担心)并且似乎它也存在顺序问题你测试变量包含。我的理解是,这也应该通过调查多重共线性和残差图(残差与预测)来补充。
问题:
格尔曼总结是要走的路吗?你会在他提出的策略中增加或改变什么?
除了纯粹考虑潜在的交互和转换(这似乎很容易产生偏见/错误/遗漏),还有其他方法可以发现潜在的交互和转换吗?向我推荐了多元自适应回归样条 (MARS),但我被告知非线性/转换不会转化为标准回归模型中的相同变量。
假设我的目标很简单:比如说,“我想估计 X1 在 Y 上的关联,只考虑 X2”。简单地回归 Y ~ X1 + X2,报告结果,而不参考实际预测能力(可能通过交叉验证 RMSE 或准确度测量)是否足够?这是否会根据事件率或样本大小而变化,或者 R^2 是否超低(我知道 R^2 不好,因为您总是可以通过过度拟合来增加它)?我通常对推理/可解释性比优化预测能力更感兴趣。
示例结论:
- “控制 X2,相对于 X1 的参考水平,X1 与 Y 没有统计学上的显着相关性。” (逻辑回归系数)
- “X1 不是 Y 的统计显着预测因子,因为在模型中,偏差的下降相对于 df 的变化还不够。” (偏差分析)
交叉验证总是必要的吗?在这种情况下,可能还想通过 SMOTE、采样等对类进行一些平衡。