我应该使用不受惩罚的逻辑回归、套索或岭来进行解释性建模吗?

机器算法验证 回归 预测模型 套索 岭回归 解释模型
2022-03-07 23:50:46

在使用逻辑回归进行预测建模时,在逻辑回归的“标准”逻辑回归、岭回归和 LASSO 版本之间进行选择似乎相对简单——只需选择对测试数据提供最佳预测性能的方法(除非有其他考虑是否执行变量选择,LASSO 会自动执行但 ridge 不会,或者此处描述的其他考虑因素为什么 ridge 回归不能提供比 LASSO 更好的可解释性?)。

但是,如果目标不是预测性能,而是解释性建模——即确定哪些预测变量会导致响应变化,以及每个预测变量的效果有多强,那又如何呢?是否有任何理由认为这三种方法中的一种更好,或者我应该只使用提供最佳预测的一种(或者使用弹性网络回归来找到 ridge 和 LASSO 在预测性能方面的最佳混合) ?

这篇文章http://projecteuclid.org/download/pdfview_1/euclid.ss/1294167961描述了解释性建模如何旨在最小化偏差,而预测建模旨在最小化偏差和方差的某种组合。这让我认为,在预测性能方面的最佳模型在解释哪些预测变量驱动响应变化方面可能不是最好的。

1个回答

从您的帖子以及您对“解释性建模旨在最大程度地减少偏差”的陈述中,我怀疑您的印象是,解释性方法和预测性方法之间的关键区别在于统计程序的选择。

诚然,在进行解释性分析时,最好避免使用变量选择算法,因为它们都对通俗地说相关性和因果关系之间的区别视而不见。这可能意味着选择 LASSO 和岭回归的“普通”回归,更不用说神经网络、随机森林、SVM、CART 等。套用戴维斯(下文)的话说,算法无法判断一个变量是否先于另一个;是更客观还是更主观地衡量;或者它通常是更具生产性(如社会经济地位)还是更少(如早餐麦片的选择)。

但是,健全、有效、可复制的解释性建模在其他方面不同于预测性建模。前者需要通过几项旨在尽可能多地揭示对结果重要的变量以及对结果产生影响的变量以及这些关系的功能形式的活动来提供信息。这些活动可能包括——

  1. 深入的文献综述。

  2. 与知识渊博的专家和同事协商。

  3. 与知识较少的人协商。来自非专家的新观点通常会产生对分析师有用的想法。

  4. (在许多情况下)比纯粹的预测分析所需的更密集、更深思熟虑和资源丰富的数据收集。你不会仅仅满足于将 Y 与某个原因的某个代理、某个指标联系起来;您将希望尽可能密切地捕捉原因本身。

确定因果关系通常比成功预测要困难得多。有一些非常有用的因果分析实践指南(例如,James A. Davis 和 Joshua D. Angrist 和 Jorn-Steffen Pischke),它们应该受到重视,因为像这样的来源远不如那些跳过因果考虑,转而讲述如何进行给定的统计程序,或如何编写适用的代码。并不是说这个类别中也没有一些巨大的资源。

(其次,当您谈论选择“在测试数据上提供最佳预测性能”的预测模型时,我希望您指的是多次迭代,即在使用训练数据构建模型的许多实例中,然后对其进行测试新数据。)