在鲜为人知的领域中,变量选择方法(例如 Elastic Net;Lasso)是否会使基于理论的模型失效?

机器算法验证 特征选择 套索 正则化 岭回归 哲学的
2022-04-16 21:32:12

我对关于世界如何运作的理论模型与在鲜为人知的领域准确预测结果的统计方法之间的关系感到困惑。我强烈怀疑这是由于对正则化/变量选择方法(例如 Elastic Net 和 Lasso)的正确用途和目的的不完全理解,所以我希望你们能帮助我继续前进。让我具体一点:

我有一个关于医学现象的 p>n 数据集,目前已知很少——但不是零——作为参考(作为参考,n=250 和 p~350,给出或取一些不会影响的定性自由文本变量我在这里谈论的分析)。为了论证的缘故,说感兴趣的现象y是一个二元结果——要么不发生(0),要么发生(1)。

概括地说,我有兴趣知道这个数据集中的哪些特征可以预测y无论采用何种方法,模型可解释性对我来说都很重要。我不仅对成功预测y感兴趣,而且我想知道哪些变量有助于这样做。

为了找出答案,我可以想到两种广泛的方法:

  1. (a) 根据对y的少量先验主题知识建立一个理论模型,然后 (b) 将其转化为所有 350 个预测变量(例如其中的 10 个)的简约子集的线性组合并回归y以或多或少的普通方式对该子集进行评估,最后 (c) 以某种可接受的方式评估该模型的性能(R^2;预测变量 beta 的统计显着性;适合训练的模型的测试集的准确性设置;等)并写出结果(例如,“我们发现变量 A 是y的统计显着预测因子,但变量 B 和 C 不是”——这将是标准/传统的社会科学方法,或者可能是“在随机选择比例的数据训练模型之后,它在“新”数据测试集上的表现是____”——这将是更现代的方法)。

  2. (a) 放弃任何先前的模型和 (b) 使用一种“厨房水槽加正则化”方法,其中y回归到所有 350 个预测变量上,并使用像 Elastic Net 这样的正则化/变量选择方法(结合 k-fold CV 来选择最佳调整参数)来“找到”一个模型——它自己的预测变量子集——它可以最大限度地提高预测精度。

那么,我的困境是:如果我同时做这两个并发现 (2) 不仅比我自己假设的 (1)更擅长预测y ,而且 (2) 选择的预测因子不同(部分或全部),该怎么办?从我先验选择的那些中?这对于自然界中存在的现象意味着什么——Elastic Net 是否在谈论“自然”?我是否必须抛弃我自己的模型,或者想办法解释我没有假设的任何“新”变量会很重要,但正则化方法告诉它很重要?

如果在方法 (2) 中,我不是将所有 350 个变量都放入模型中,而是将我在方法 (1) 中使用的预测变量的子集放入模型中,那会有什么不同——或者这会改变整个问题吗?

谢谢!

这个问题与另一个在 CV [1, 2] 上提出的问题密切相关,但我认为并不完全相同。如果过去已经解决了这个问题,我很抱歉忽略了它!

1 2

2个回答

双鲁棒方法(Urminsky 等人“使用双套索回归进行有原则的变量选择”)最近变得非常流行,因为它们允许(参见第 18 页,结论性评论)“识别分析中包含和不包含哪些协变量”(甚至如果变量的数量大于您的情况下的样本量)。

仅凭这种经验方法无法解决您的问题(我认为没有人会完全解决问题),因为您需要一些理论(在我看来,以及上面引用的知名作者的观点[p. 18]):

此处介绍的分析方法无法确定所选变量应发挥的作用,或应如何解释它们对利益关系的影响。混淆、操纵检查和中介在数据中可能都具有相似的统计关系(MacKinnon, Krull, & Lockwood, 2000; Zhao, Lynch, & Chen, 2010),这些区别通常应该基于理论依据。

这意味着对于您的问题,弹性网或任何经验方法都不一定会说明“自然”。

但是双重稳健方法可能仍然是您正在寻找的[p. 18]

然而,要么包括所有协变量,要么完全忽略协变量,要么是因为在概念上难以识别变量的理论作用,要么是因为协变量可能被不当使用(即,在 p-hacking 中),都不是解决方案。未能控制有效的协变量可能会在相关分析或不完全随机化的实验中产生有偏差的参数估计,并且即使在有效的随机化实验中也会导致分析能力不足。正如分析中所证明的那样,双套索变量选择可作为一种原则性方法来识别相关性、调节、中介和实验干预分析中的协变量,以及测试随机化的有效性。

也有可用的 R 包。

为什么是双重稳健方法,而不是单独说套索[p. 5] ?

目标是识别包含在两个步骤中的协变量,找到那些预测因变量和预测自变量的协变量。第二步很重要,因为排除作为因变量的适度预测变量但自变量的强预测变量的协变量会产生大量遗漏变量偏差。

预测模型是关于做出好的预测。当您选择第二个选项时,这就是您正在优化的内容(根据您优化弹性网络参数的指标)。无论超参数设置如何帮助模型预测良好,如通过 k 倍 CV 评估的那样,都会使用,然后你会得到一些非零的结果系数。你真的不应该过度解释这些,因为模型选择后的推断很困难。有很多关于选择后推理的文献试图找到在某种意义上“有效”的方法,但这很棘手。当然,根据您描述的数字,您可能会偶然错过一些实际上非常相关的预测因子。还有一些严重的风险是一些虚假的预测变量最终会出现在你的模型中,但那

但是,不要期望太多。你有一个很小的数据集,实际上只能做这么多(见这里的第二个引用:https ://en.wikiquote.org/wiki/John_Tukey )。

第一种方法对于解释系数的问题较小,因为您至少没有模型选择在解释方面搞砸了一切。但是,您仍然应该注意不要过度解释统计显着性(首先,重要的预测变量可能不是偶然的,不太重要的可能是,其次您当然有多重比较问题)或系数(由于样本量很小,甚至改变符号 - 也就是 S 型错误 - 或者只是幅度完全错误 - 也就是 M 型错误 - 是非常现实的问题)。