我对关于世界如何运作的理论模型与在鲜为人知的领域准确预测结果的统计方法之间的关系感到困惑。我强烈怀疑这是由于对正则化/变量选择方法(例如 Elastic Net 和 Lasso)的正确用途和目的的不完全理解,所以我希望你们能帮助我继续前进。让我具体一点:
我有一个关于医学现象的 p>n 数据集,目前已知很少——但不是零——作为参考(作为参考,n=250 和 p~350,给出或取一些不会影响的定性自由文本变量我在这里谈论的分析)。为了论证的缘故,说感兴趣的现象y是一个二元结果——要么不发生(0),要么发生(1)。
概括地说,我有兴趣知道这个数据集中的哪些特征可以预测y?无论采用何种方法,模型可解释性对我来说都很重要。我不仅对成功预测y感兴趣,而且我想知道哪些变量有助于这样做。
为了找出答案,我可以想到两种广泛的方法:
(a) 根据对y的少量先验主题知识建立一个理论模型,然后 (b) 将其转化为所有 350 个预测变量(例如其中的 10 个)的简约子集的线性组合并回归y以或多或少的普通方式对该子集进行评估,最后 (c) 以某种可接受的方式评估该模型的性能(R^2;预测变量 beta 的统计显着性;适合训练的模型的测试集的准确性设置;等)并写出结果(例如,“我们发现变量 A 是y的统计显着预测因子,但变量 B 和 C 不是”——这将是标准/传统的社会科学方法,或者可能是“在随机选择比例的数据训练模型之后,它在“新”数据测试集上的表现是____”——这将是更现代的方法)。
(a) 放弃任何先前的模型和 (b) 使用一种“厨房水槽加正则化”方法,其中y回归到所有 350 个预测变量上,并使用像 Elastic Net 这样的正则化/变量选择方法(结合 k-fold CV 来选择最佳调整参数)来“找到”一个模型——它自己的预测变量子集——它可以最大限度地提高预测精度。
那么,我的困境是:如果我同时做这两个并发现 (2) 不仅比我自己假设的 (1)更擅长预测y ,而且 (2) 选择的预测因子不同(部分或全部),该怎么办?从我先验选择的那些中?这对于自然界中存在的现象意味着什么——Elastic Net 是否在谈论“自然”?我是否必须抛弃我自己的模型,或者想办法解释我没有假设的任何“新”变量会很重要,但正则化方法告诉它很重要?
如果在方法 (2) 中,我不是将所有 350 个变量都放入模型中,而是将我在方法 (1) 中使用的预测变量的子集放入模型中,那会有什么不同——或者这会改变整个问题吗?
谢谢!
这个问题与另一个在 CV [1, 2] 上提出的问题密切相关,但我认为并不完全相同。如果过去已经解决了这个问题,我很抱歉忽略了它!